中國數據治理與西方國家模式的不同點
中國正在構建前所未有的基礎設施,將數據轉化為可交易的“生產要素”——與土地、勞動力、資本和技術并駕齊驅的戰略經濟資源。這種方法與西方的數據治理有著根本的不同:中國并非將數據主要視為隱私問題,而是將其視為需要國家主導的市場機制的國家經濟資產。對于國際人工智能從業者而言,理解這一框架至關重要,因為它影響著合規要求、技術架構以及獲取中國數據進行模型訓練的途徑。
數據作為國家基礎設施的政策邏輯
中國的數據要素生態系統源于一項具體的診斷:海量數據資源分散在政府機構、國有企業和私營科技平臺等各個部門,形成信息孤島,造成市場失靈,阻礙經濟發展。政策應對措施將此視為一個需要政府干預的資源配置問題,將國家定位為數據交易的協調者,在政策制定者所稱的“中國特色社會主義市場經濟”中扮演著重要角色。

2022年12月,中共中央、國務院發布了具有里程碑意義的《數據二十條》,確立了數據治理的四大支柱。其中最具創新性的是第一支柱,它通過“結構分離”來解決數據產權問題——該框架并非賦予數據所有權,而是區分持有權、加工權和經營權。這種巧妙的變通方法既避免了數據“所有權”這一哲學難題(數據本身具有非競爭性,且可無限復制),又促進了數據市場交易。其余支柱則通過分類數據管理,建立了數據流通和交易體系、收益分配機制以及安全治理體系。
第二個里程碑出現在2023年8月,中國財政部發布了全球首個國家數據資產會計處理規定,該準則于2024年1月生效。企業現在可以將符合條件的數據資源在資產負債表上確認為存貨(用于出售的數據)或無形資產(用于提供服務的數據)。盡管該準則的實施仍處于早期階段,但這項會計創新標志著中國致力于將數據金融化,使其成為經濟基礎設施。
2023年10月,國家數據局在國家發展和改革委員會的領導下成立,機構架構逐漸成型,整合了此前分散的地方管理部門之間的協調。國家數據管理局負責數據開發和流通,而國家互聯網信息辦公室則負責數據安全——這種分工反映了開放數據流動與維護數據控制之間持續存在的矛盾。
“數據可用但不可見”的技術基礎設施
中國的數據基礎設施運行遵循一個關鍵原則:在不暴露底層記錄的情況下對數據進行計算。實現這一目標的技術架構包含三個集成層。

國家支持的數據交易所作為中介平臺,負責數據產品的上架、定價和交易。上海數據交易所(2021年11月上線)是全國典范,其國際板塊于2023年4月成立,旨在促進跨境交易并與國際數據供應商建立合作關系。北京國際大數據交易所和深圳數據交易所則構成了主要的樞紐網絡。這些交易所負責產品注冊,包括元數據和使用權,實行三權分離,要求買方在獲得批準前明確使用場景,并整合第三方認證、安全驗證和合規性檢查。
隱私保護計算平臺構成了使能層。微眾銀行的FATE(聯邦人工智能技術使能器)自2019年起由Linux基金會托管,提供工業級聯邦學習和安全的多方計算協議。螞蟻集團的SecretFlow于2022年開源,涵蓋了幾乎所有主流的隱私計算技術。這些平臺部署了聯邦學習,用于在不集中原始數據的情況下進行協同模型訓練;部署了安全的多方計算,用于在不泄露輸入的情況下實現聯合功能;部署了可信執行環境,提供基于硬件的隔離飛地;以及部署了同態加密,用于對加密數據進行計算。
可信數據空間代表了中國安全數據流的生產基礎設施。國家數據管理局2024年11月發布的行動計劃目標是在2028年前建成100多個可信數據空間,并于2025年宣布在企業、行業、城市和跨境應用領域開展試點項目。這些空間嵌入了數字合約,具備自動合規執行、實時監控、完整審計追蹤和多方協調功能,并通過基于區塊鏈的溯源追蹤將數據提供者、用戶和監管機構連接起來。

數據基礎設施與人工智能模型訓練的交匯點
中國的數據要素生態系統正通過多種機制與大型語言模型開發緊密相關。北京國際大數據交換中心啟動了“AI煉金術計劃”,旨在收集全球訓練數據集。上海于2024年3月成立了政府主導的上海庫帕斯科技股份有限公司,專門負責AI語料庫的收集工作。上海的“5+6”垂直語料庫工程分別針對金融、制造、教育、醫療、文化旅游和城市治理等領域。
人工智能訓練數據的合規架構源自《生成式人工智能服務管理暫行辦法》(2023年8月)——這是全球首個專門針對生成式人工智能的行政法規。訓練數據必須來自合法來源,不得侵犯知識產權,且涉及個人信息時,必須獲得同意或依據《個人信息保護法》提供法律依據。最初嚴格的“確保”數據質量要求已顯著放寬為“提高”數據質量——這體現了對大規模實施挑戰的務實考量。
三項具有約束力的國家標準將于 2025 年 11 月生效(GB/T 45652–2025 用于預訓練數據,GB/T 45654–2025 用于服務安全,GB/T 45674–2025 用于標注),這些標準對詳細的標注要求進行了編纂,包括訓練有素的人員、內容有效性抽查和標準化監督。

隱私保護計算技術為敏感數據訪問提供了合規途徑。聯邦學習使醫院能夠在不共享患者記錄的情況下協作訓練醫療人工智能模型。模型計算(MPC)允許金融機構在不泄露專有數據的情況下聯合開發風險模型。上海人工智能實驗室的DeepLink技術棧展示了該領域的前沿:混合訓練現已通過電信網絡覆蓋京滬青海地區。這種分布式架構——部分原因是受美國出口管制強制要求集成多廠商GPU的影響——表明隱私保護分布式訓練如何能夠實現跨司法管轄區的合規模型開發。
中國與GDPR:根本不同的運作假設
要理解中國的做法,就必須把握其與歐盟GDPR框架在概念上的差異。這種差異不僅體現在監管層面,更體現在理念層面。
歐盟將數據治理視為權利保護:數據隱私保護延伸了個人自主權,使其免受企業和國家權力的過度干預。這種以人為本的傳統認為個人數據本質上屬于個人,而相關法規旨在維護這種關系。由此形成的框架側重于同意機制、目的限制和數據最小化——所有這些都旨在保護個人免受剝削。
中國將數據治理視為產業政策:數據是一種戰略性國家資源,其價值被低估,目前在缺乏監管的市場中受到市場扭曲。國家的主要角色并非保護,而是分配——引導數據流動以實現國家經濟效益最大化。《個人信息保護法》仍然關注個人利益,但這些利益必須在一個以數據生產潛力為優先的框架內運作。
這解釋了中國數據處理方式的幾個顯著特點:某些類別的數據強制本地化、跨境數據傳輸的安全評估、國家支持而非純粹的私人市場,以及明確推動企業在資產負債表中體現數據。其根本邏輯在于,數據資源——如同土地或礦產資源——需要協調開發利用,而非分散的個人控制。
對于國際從業者而言,這造成了一種“雙棧”現實:許多跨國公司目前運營著獨立的全球IT架構和中國本地化IT架構。三項法律框架——《網絡安全法》(2017年)、《數據安全法》(2021年)和《個人信息保護法》(2021年)——造成了重疊的合規要求。跨境數據傳輸需要根據數據類型和數據量進行政府安全評估、第三方認證或采用中國標準合同條款。
近期跡象表明政策有所調整:2024年3月生效的規定放寬了一些嚴格的跨境要求,但其基本框架——將數據視為國家管理的生產要素——依然保持不變。
人工智能公司的技術架構要求
在中國開發或部署人工智能系統的公司必須在其技術架構中構建多種功能。
數據溯源系統必須記錄所有培訓數據來源,維護個人信息的同意記錄,并標記可能被歸類為“重要數據”的數據,此類數據跨境傳輸需要政府批準。重要數據的定義因行業而異,且不斷發展變化,因此需要持續監測。
內容安全基礎設施包括用于過濾違禁內容的預訓練語料庫、實時輸出審核以及模型優化功能,以便在法規規定的三個月期限內處理違規行為。算法備案和注冊系統必須符合 CAC 的要求。
保護隱私的數據管道能夠以合規的方式訪問敏感的中國數據:聯邦學習用于分布式訓練,差分隱私用于語料庫匿名化,TEE/MPC 集成用于安全的多方場景。這些不僅僅是合規機制,更是提升競爭力的關鍵——它們提供了獲取原本無法訪問的數據資源的途徑。
隨著美國出口管制迫使華為昇騰、畢仁、Moore Threads、寒武紀等國內加速器采用多廠商GPU集成,異構計算基礎設施已成為標準配置。跨數據中心的長距離訓練已得到驗證,展現了隱私保護型分布式訓練如何大規模運行。

小結:數據治理需要不同的模式
中國的數據要素倡議代表了一種國際人工智能從業者不容忽視的數據治理新架構。該框架通過與西方模式截然不同的機制,解決了實際的協調難題——打破數據孤島、促進跨組織協作、建立定價機制。
技術創新意義重大:工業級聯邦學習平臺、基于區塊鏈的可信數據空間、具備集成合規性的國家支持型交易所,以及分布式異構訓練基礎設施。這些不僅僅是監管措施,更是符合中國特色的人工智能發展實用工具。
對于實踐者而言,關鍵在于中國已經構建并將繼續構建一套平行的數據基礎設施,這套基礎設施針對個人、企業和國家之間關系的不同假設進行了優化。無論作為合作伙伴、競爭對手還是觀察者,參與中國人工智能發展都需要理解這套基礎設施,它并非偏離普遍標準,而是一個擁有自身邏輯、能力和約束的連貫的替代系統。























