加快建立人工智能訓練數(shù)據(jù)合理使用制度

2026-05-28 16:25

來源：澎湃新聞·澎湃號·政務

近日，中央網(wǎng)信辦印發(fā)通知，在全國范圍內(nèi)部署開展為期4個月的“清朗·整治AI應用亂象”專項行動。該行動第一階段重點整治的問題中就包括大模型訓練語料安全，如訓練語料審核把關不嚴，模型訓練數(shù)據(jù)存在違法不良信息；訓練數(shù)據(jù)來源合規(guī)性存在問題，模型訓練過程中使用未經(jīng)授權的文字、圖片、音視頻等數(shù)據(jù)，明確強化AI技術源頭治理。

回溯人工智能的發(fā)展歷程，從最初的文本生成，到如今的圖像、音樂、視頻等多模態(tài)內(nèi)容生成，每向前邁進一步，對訓練數(shù)據(jù)的廣度、深度和復雜性的要求就更高一層?？梢哉f，沒有數(shù)據(jù)，就沒有模型；沒有高質(zhì)量數(shù)據(jù)，就沒有高水平模型。今天的大模型競爭，表面上看是算法與算力的競爭，實則是數(shù)據(jù)供給與數(shù)據(jù)治理能力的競爭。誰能在合法合規(guī)的前提下穩(wěn)定獲得可用數(shù)據(jù)，建設高質(zhì)量語料和數(shù)據(jù)集，誰就能在未來的人工智能競爭中占據(jù)主動甚至主導地位。

當前，針對人工智能訓練數(shù)據(jù)的使用，尚缺乏統(tǒng)一的制度規(guī)則。實踐中主要依靠《生成式人工智能服務管理暫行辦法》《中共中央國務院關于構建數(shù)據(jù)基礎制度更好發(fā)揮數(shù)據(jù)要素作用的意見》等規(guī)范，再輔之以著作權法中合理使用制度等相關規(guī)則加以調(diào)節(jié)。在整體上，仍須完善與其他各部門法協(xié)調(diào)統(tǒng)一、內(nèi)容明確、具有直接針對性的制度規(guī)范。由于現(xiàn)實中的模型訓練數(shù)據(jù)往往來源復雜、層級多樣、流轉頻繁，使得大量數(shù)據(jù)處于權屬不明、授權不清、來源難溯的狀態(tài)。加之算法訓練過程高度復雜，模型機制帶有明顯的“黑箱”屬性，進一步導致權利識別難、侵權舉證難、責任劃分難，成為實踐中普遍存在的現(xiàn)實問題。鑒于此，建立人工智能訓練數(shù)據(jù)合理使用的制度規(guī)則可謂迫在眉睫。訓練數(shù)據(jù)治理不能只依賴事后個案裁判，還應建立分類分級、授權留痕、來源可溯、風險評估和爭議救濟等制度機制。尤其要區(qū)分訓練階段的數(shù)據(jù)攝取、模型輸出階段的內(nèi)容生成，以及平臺傳播階段的責任承擔，避免將不同環(huán)節(jié)的法律責任簡單混同。

事實上，“十五五”規(guī)劃綱要已對此作出針對性部署，提出“完善數(shù)據(jù)標準體系和質(zhì)量管理體系，加快建設人工智能語料庫，面向能源、交通、制造、教育、健康、金融等領域建設高質(zhì)量數(shù)據(jù)集，建立人工智能訓練數(shù)據(jù)合理使用制度”。這意味著訓練數(shù)據(jù)治理已不只是技術企業(yè)自身的合規(guī)問題，而是關系數(shù)據(jù)資源開發(fā)、人工智能產(chǎn)業(yè)競爭力和數(shù)字中國建設全局的基礎性制度問題。構建科學有效的制度規(guī)則是人工智能行穩(wěn)致遠的重要保障。讓人工智能訓練數(shù)據(jù)合理使用制度立得住、行得通，兩方面的問題尤其值得關注。

一方面，應統(tǒng)籌好多元關系。人工智能訓練數(shù)據(jù)從生成、處理、流通到進入模型訓練，涉及原始權利人、數(shù)據(jù)處理者、交易平臺、模型開發(fā)者、應用企業(yè)和最終用戶等多類主體。制度設計既不能把數(shù)據(jù)資源簡單視為可任意抓取的公共素材，也不能因權利邊界不清而使創(chuàng)新活動陷入過度不確定。關鍵在于建立清晰、可操作、可預期的規(guī)則：對可自由使用、需授權使用、限制使用和禁止使用的數(shù)據(jù)作出分類安排，對授權、收益分配、來源追溯和責任承擔形成明確機制。

另一方面，人工智能訓練數(shù)據(jù)使用天然具有跨境性，涉及版權例外、文本與數(shù)據(jù)挖掘、跨境數(shù)據(jù)流動、數(shù)字貿(mào)易和平臺治理等多重議題。這要求我們在制度制定中，既要立足國內(nèi)產(chǎn)業(yè)實踐，也要重視與國際通行規(guī)則的兼容、對話和轉化。尤其在相關國際規(guī)則仍處于形成和調(diào)整階段的背景下，應通過知識產(chǎn)權、數(shù)字經(jīng)濟和人工智能治理等多邊平臺，積極提出具有實踐基礎、制度解釋力的中國方案。

面向人工智能快速發(fā)展的新階段，我們應以訓練數(shù)據(jù)合理使用制度建設為重要抓手，加快推動形成分類清晰、授權明確、流通有序、責任可追的治理體系，在保護權利人合法權益的同時釋放數(shù)據(jù)要素價值，在規(guī)范市場秩序的同時激發(fā)技術創(chuàng)新活力。唯有如此，人工智能產(chǎn)業(yè)才能在法治軌道上行穩(wěn)致遠，我們也才能在全球人工智能治理規(guī)則塑造中貢獻更多“中國智慧”。

來源：光明日報丨作者：孫曉麒、鄧宏光，分別系中國政法大學刑民交叉研究中心特約研究員，西南政法大學民商法學院教授、博士生導師

特別聲明

本文為澎湃號作者或機構在澎湃新聞上傳并發(fā)布，僅代表該作者或機構觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報

#人工智能