- +1
從“拼算法”轉向“拼數(shù)據(jù)”!模塑申城語料普惠計劃2.0發(fā)布:明年底規(guī)模超10PB
“語料數(shù)據(jù)正成為人工智能發(fā)展的重要勝負手?!?/p>
3月28日,在2026全球開發(fā)者先鋒大會(GDPS)“語料筑基、智生時代”主題論壇上,上海市經(jīng)濟和信息化委員會副主任潘焱指出,當前人工智能發(fā)展正在加快進入應用落地階段,特別是隨著大模型、智能體等技術的持續(xù)演進,產(chǎn)業(yè)競爭正在從“拼算法”向“拼數(shù)據(jù)”轉變,模型能力要提升,行業(yè)應用要落地,智能體要真正走進真實場景,越來越離不開高質(zhì)量的語料。
本次論壇由全球開發(fā)者先鋒大會組委會指導,全球開發(fā)者先鋒大會組委會辦公室、上海庫帕思科技有限公司、上海人工智能實驗室主辦。
會上,由庫帕思牽頭推進的模塑申城語料普惠計劃2.0正式發(fā)布,在原有基礎上,將進一步聚焦“普惠、創(chuàng)新、鏈接”的總體要求,在原有的基礎上,重點圍繞科學智能重點提供“高真值、多模態(tài)、過程化”語料數(shù)據(jù)供給服務,并面向OPC(一人公司)群體提供更加輕量化、低成本的語料服務支撐。
據(jù)介紹,語料普惠計劃2.0將為中小企業(yè)、高校師生、創(chuàng)新創(chuàng)業(yè)者提供低成本高質(zhì)量的可持續(xù)語料供給,計劃到2027年底鏈接服務500個創(chuàng)新主體,打造300個稀缺數(shù)據(jù)集,普惠提供語料價值不少于1.5億,語料規(guī)模超過10PB(拍字節(jié),數(shù)據(jù)存儲量單位,1PB=1024TB)。

澎湃新聞記者 秦盛 攝
上海人工智能實驗室青年科學家何聰輝指出,從通用數(shù)據(jù)走向科學數(shù)據(jù),面臨著數(shù)據(jù)封閉、標準缺失、模態(tài)復雜等多重挑戰(zhàn)。
他表示,與互聯(lián)網(wǎng)上公開傳播的通用數(shù)據(jù)不同,大量科學數(shù)據(jù)屬于私域數(shù)據(jù),封閉程度極高。同時,科學數(shù)據(jù)模態(tài)豐富、專業(yè)性強、格式多樣,且不同模態(tài)之間缺乏對齊,導致AI難以理解。此外,大量暗數(shù)據(jù)尚未形成有效的語料化,基礎設施的不完備也使得數(shù)據(jù)和模型更多服務于人類科學家,而非AI智能體。
為破解這一問題,何聰輝提出打造科學數(shù)據(jù)基座“Sciverse”。該體系分為三層:最底層是通識層,包含書籍、文獻、教材、代碼等共識數(shù)據(jù);中間是對齊層,通過人類可理解的方式將不同模態(tài)的數(shù)據(jù)(如序列與結構、注釋等)進行對齊;最上層是演化層,包含軌跡數(shù)據(jù)、推理數(shù)據(jù)等Agent友好的數(shù)據(jù),旨在讓AI超越簡單的問答,真正成為具備自主發(fā)現(xiàn)能力的“AI科學家”。
“如果說過去我們是在‘找油廠’開采原油,那么今天我們的任務是如何把已找到的‘油’精煉出來,這就像一場精細的數(shù)據(jù)加工工藝,煉數(shù)為力?!鄙虾?chuàng)智學院教授劉鵬飛用比喻解釋了當前數(shù)據(jù)利用的新趨勢。
劉鵬飛強調(diào),數(shù)據(jù)供需矛盾日益凸顯,能滿足當前AI訓練需求的高質(zhì)量數(shù)據(jù)越來越少,獲取成本也水漲船高。“不夸張地說,現(xiàn)在一條高質(zhì)量數(shù)據(jù)的成本可能高達上千美元?!?/p>
面對這一挑戰(zhàn),劉鵬飛提出“優(yōu)化法”的解決思路:“用算力去換數(shù)據(jù),本質(zhì)上就是隨著技術能力的提高,變廢為寶,把之前被忽略的數(shù)據(jù)‘撈’起來。這不是簡單的數(shù)量收集,而是讓數(shù)據(jù)真正可用?!彼J為,數(shù)據(jù)決定了智能的上限和模型的最終能力,未來將是模型與數(shù)據(jù)“共進化”(co-evolve)的過程,每一代模型的成長都將挖掘出新一代的數(shù)據(jù)智能。
據(jù)介紹,圍繞語料數(shù)據(jù),上海已形成多層次的語料供給能力、建成了語料運營服務平臺、營造了開放協(xié)同的產(chǎn)業(yè)生態(tài)。下階段,上海將從三方面加強高質(zhì)量語料供給,培育完善創(chuàng)新生態(tài)。
一是聚焦技術發(fā)展的新需求,加快數(shù)據(jù)合成算法、動態(tài)價值觀知識庫的構建、數(shù)據(jù)投毒過濾算法等語料關鍵技術的攻關,打造語料全生命周期工具鏈;二是聚焦行業(yè)新應用,借鑒FDE模式(前沿部署工程師模式),深化實施語料專項治理行動,加快構建行業(yè)高價值語料,打造服務垂類模型訓練的行業(yè)語料基座;三是聚焦OPC等新產(chǎn)業(yè)形態(tài),打造標準化、輕量化的語料創(chuàng)新產(chǎn)品,打造適配多場景、兼具多專業(yè)性的語料服務模式。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務許可證:31120170006
增值電信業(yè)務經(jīng)營許可證:滬B2-2017116
? 2014-2026 上海東方報業(yè)有限公司




