- +1
具身智能帶火了數(shù)據(jù)采集生意
“在具身智能尚未真正大規(guī)模商業(yè)化之前,數(shù)據(jù)作為基礎(chǔ)設(shè)施,會比終端應(yīng)用更早形成商業(yè)回報?!苯衲?月,覓蜂科技董事長兼CEO姚卯青在智元合作伙伴大會上的發(fā)言,透露了具身智能數(shù)據(jù)這一新興賽道的底層邏輯:AI產(chǎn)業(yè)鏈里,賣“鏟子”的人往往先賺錢。
高盛此前預(yù)測,到2035年,人形機(jī)器人市場規(guī)??赡苓_(dá)到380億美元。對機(jī)器人快速發(fā)展的預(yù)期,正在推高對上游訓(xùn)練數(shù)據(jù)的需求。Grand View Research的數(shù)據(jù)顯示,全球數(shù)據(jù)采集和標(biāo)注市場規(guī)模預(yù)計(jì)到2030年將達(dá)到171億美元。
為了讓人形機(jī)器人盡快實(shí)現(xiàn)“ChatGPT”智能涌現(xiàn)時刻,具身智能的數(shù)據(jù)生意正在升溫。
數(shù)據(jù)荒漠:十萬年難題
具身智能數(shù)據(jù)的匱乏被行業(yè)戲稱“十萬年難題”。大語言模型可以輕松從互聯(lián)網(wǎng)獲取海量語料,而機(jī)器人需要的是在真實(shí)世界中 “拿、放、走、抓、避障、操作”等三維動作數(shù)據(jù),數(shù)據(jù)獲取的復(fù)雜程度和難度都比大語言模型高很多。
為了彌補(bǔ)數(shù)據(jù)缺口,目前具身智能的數(shù)據(jù)來源主要包含三類,并形成一座數(shù)據(jù)金字塔:位于頂層的是真機(jī)數(shù)據(jù),數(shù)據(jù)質(zhì)量最精準(zhǔn),成本也最貴,但卻是人形機(jī)器人落地的關(guān)鍵;仿真數(shù)據(jù)處于中層,成本低、可規(guī)?;軌驈浹a(bǔ)當(dāng)前真機(jī)數(shù)據(jù)的不足;互聯(lián)網(wǎng)視頻、人類行為數(shù)據(jù)處于金字塔底層,來源廣泛、泛化性強(qiáng)。
過去兩年,全國各地陸陸續(xù)續(xù)出現(xiàn)不同類型的“賣機(jī)器人數(shù)據(jù)”的公司。
以剛剛成立的覓蜂科技為例,公開信息顯示,覓蜂科技是智元機(jī)器人控股的具身智能數(shù)據(jù)平臺公司,姚卯青同時也是智元機(jī)器人的合伙人、高級副總裁。
早在覓蜂科技之前,智元就已經(jīng)自建數(shù)據(jù)采集工廠,通過真機(jī)遙操作等方式,在家居、餐飲、工業(yè)、商超和辦公等場景中采集機(jī)器人訓(xùn)練數(shù)據(jù)。姚卯青透露,智元更多關(guān)注機(jī)器人本體業(yè)務(wù),而面向B端市場的通用型數(shù)據(jù)服務(wù)業(yè)務(wù)未來將主要放在覓蜂科技。
目前市面上從事具身智能數(shù)據(jù)采集的公司主要分為以下三類:
一是真實(shí)場景數(shù)據(jù)采集,例如美國AI機(jī)器人初創(chuàng)公司 Sunday Robotics、國內(nèi)鹿明機(jī)器人采用的UMI(Universal Manipulation Interface:通用操作界面)。這條數(shù)采路線強(qiáng)調(diào)用手持夾爪和接口設(shè)計(jì),能實(shí)現(xiàn)便攜、低成本、豐富的數(shù)據(jù)采集,并且支持跨不同機(jī)器人平臺部署。
二是試圖用仿真與合成數(shù)據(jù)構(gòu)建物理世界的數(shù)據(jù)生成引擎。比如創(chuàng)業(yè)公司光輪智能,專注仿真合成數(shù)據(jù)與“World-Behavior-Eval(世界-行為-評測)”三層閉環(huán),把高精度仿真引擎、數(shù)據(jù)處理pipeline(管線)、評測基準(zhǔn)做成具身智能行業(yè)基礎(chǔ)設(shè)施;還有于4月17日正式登陸港交所、成為“全球空間智能第一股”的群核科技則利用在3D云設(shè)計(jì)領(lǐng)域積累的海量三維場景數(shù)據(jù),將業(yè)務(wù)觸角延伸至具身智能。
還有一類公司則嘗試走數(shù)據(jù)、本體+模型閉環(huán)路線,這是目前頭部具身智能公司普遍在探索的方向。比如,在2026年4月中旬剛獲得中國具身智能領(lǐng)域最大單筆融資金額的它石智航,同步研發(fā)機(jī)器人本體、具身大模型及穿戴式采集系統(tǒng)。
誰在買數(shù)據(jù)
從當(dāng)下的產(chǎn)業(yè)鏈位置來看,具身智能數(shù)據(jù)服務(wù)更像是一門“賣鏟子”的生意。誰會購買這些數(shù)據(jù)生意服務(wù)?
姚卯青在接受澎湃科技采訪時透露,目前數(shù)據(jù)需求方大致集中在大模型團(tuán)隊(duì)、海內(nèi)外大廠以及初創(chuàng)機(jī)器人公司。需求方普遍處于“你有多少我就買多少,什么時候有馬上要”的狂熱狀態(tài)。
另有一部分?jǐn)?shù)據(jù)需求方是傳統(tǒng)工業(yè)機(jī)器人。智域基石創(chuàng)始人楊哲軒告訴澎湃科技,一些在轉(zhuǎn)型中落后的傳統(tǒng)工業(yè)機(jī)器人廠商,也成為這波數(shù)據(jù)浪潮中的潛在買單者。智域基石成立于2025年12月,今年3月剛完成數(shù)千萬天使輪融資,投資方包括靈初智能、穹徹智能、浙江人形、智平方等具身智能企業(yè),其核心任務(wù)是將雜亂的物理世界數(shù)據(jù)轉(zhuǎn)化為面向機(jī)器人任務(wù)成功率的高質(zhì)量訓(xùn)練輸入。
此外,還有產(chǎn)業(yè)下游的機(jī)器人訓(xùn)練場景方和地方政府。工廠、園區(qū)、商超等場景方手中的真實(shí)生產(chǎn)和服務(wù)數(shù)據(jù),本身就是有價值的數(shù)據(jù)資產(chǎn)。如果這些數(shù)據(jù)直接開放給上游模型公司,場景方可能在產(chǎn)業(yè)鏈議價中處于弱勢。楊哲軒稱,智域基石這樣的中游數(shù)據(jù)服務(wù)公司可以幫助場景方完成數(shù)據(jù)采集、清洗、對齊、治理和轉(zhuǎn)化,讓場景方的數(shù)據(jù)成為可被訓(xùn)練和交易的數(shù)據(jù)資產(chǎn)。
在具身智能數(shù)據(jù)定價方面,當(dāng)前市場上仿真數(shù)據(jù)與真實(shí)數(shù)據(jù)服務(wù)并存,行業(yè)仍處于早期階段,缺乏統(tǒng)一明晰的定價標(biāo)準(zhǔn)。
澎湃科技(m.nxos.com.cn)了解到,具身智能數(shù)據(jù)當(dāng)前總體定價區(qū)間在200至500元/小時。其中機(jī)器人在現(xiàn)實(shí)場景中實(shí)際操作采集的真機(jī)數(shù)據(jù),因最適合訓(xùn)練落地模型,需求最旺盛,價格也最貴,當(dāng)前國內(nèi)市場價格在 500元到1000元/小時。姚卯青透露,隨著產(chǎn)能逐步穩(wěn)定,不依賴特定機(jī)器人本體的無本體數(shù)據(jù)價格最終會收斂到真機(jī)數(shù)據(jù)的二分之一到三分之一左右。比如真機(jī)數(shù)據(jù)如果賣到每小時1000元,無本體數(shù)據(jù)未來可能穩(wěn)定在300元至400元。
數(shù)量不是唯一指標(biāo)
不過,具身智能數(shù)據(jù)并不只是“多采一點(diǎn)”這么簡單。
大語言模型的“GPT時刻”建立在相對清晰的Scaling Law之上,但在機(jī)器人領(lǐng)域,數(shù)據(jù)的Scaling Law缺乏同等清晰的定義,“數(shù)據(jù)是否越多就越好”本身就是一個難以驗(yàn)證的命題。
極佳視界是一家具身智能和通用機(jī)器人公司。該公司聯(lián)合創(chuàng)始人朱政稱,現(xiàn)在行業(yè)里使用的數(shù)據(jù)大多在實(shí)驗(yàn)室或人工場景采集,不夠真實(shí),缺乏泛服務(wù)、工業(yè)、家庭等真實(shí)場景數(shù)據(jù);另外,標(biāo)注也過于簡略。多模態(tài)時代,一張圖可以有幾千字標(biāo)注,描述背景、前景和意圖,但現(xiàn)在很多視頻數(shù)據(jù)只有簡單動作標(biāo)注,環(huán)境和任務(wù)描述嚴(yán)重不足。“補(bǔ)齊這兩點(diǎn),數(shù)據(jù)質(zhì)量才會真正提升?!敝煺f。
它石智航相關(guān)工作人員告訴澎湃科技,具身智能數(shù)據(jù)生意的核心壁壘,不只是“采了多少小時”,而是數(shù)據(jù)是否足夠真實(shí)、干凈、可對齊,并且能否適配具體模型和本體。只看數(shù)據(jù)采集時間和數(shù)據(jù)量,不看效率,數(shù)據(jù)的純凈度,沒有任何意義。相比數(shù)據(jù)規(guī)模,數(shù)據(jù)的適配性、質(zhì)量和純凈度,以及噪聲水平,才決定這些數(shù)據(jù)能不能真正用于訓(xùn)練。
這也反映出具身智能數(shù)據(jù)生意的一個新問題:數(shù)據(jù)量并不是唯一指標(biāo)。百萬小時級數(shù)據(jù)如果不夠真實(shí)、不夠干凈,或者不能適配具體模型和本體,仍然難以直接轉(zhuǎn)化為機(jī)器人能力。
模型評價也是一個問題。光輪智能CEO謝晨在智元合作伙伴大會圓桌論壇環(huán)節(jié)中明確表示,數(shù)據(jù)的核心問題,不在數(shù)據(jù)本身,而是在模型評價上?,F(xiàn)在缺乏一個足夠開放的、足夠真實(shí)的,且可規(guī)?;芈涞氐秸鎸?shí)場景的具身模型評價方式。如果沒有合適的評價體系,企業(yè)就不知道用什么樣的數(shù)據(jù)能夠做好具身模型。
在業(yè)內(nèi)人士看來,未來兩類數(shù)據(jù)公司可能會有長期增長空間,一是成為行業(yè)標(biāo)準(zhǔn)平臺,擁有具身智能生態(tài)必不可少的仿真、數(shù)據(jù)處理和數(shù)據(jù)評測工具;二是當(dāng)機(jī)器人進(jìn)入真實(shí)場景,持續(xù)產(chǎn)生大量新場景與長尾任務(wù)后,需要長期、高質(zhì)量的數(shù)據(jù)補(bǔ)充與迭代,具備跨廠商數(shù)據(jù)融合與提純能力的公司具有持續(xù)的商業(yè)價值。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2026 上海東方報業(yè)有限公司




