- +1
“26年具身智能,做不過(guò)來(lái),根本做不過(guò)來(lái)”:含陶大程教授獨(dú)家專(zhuān)訪 l 深度產(chǎn)業(yè)觀察



2026年具身智能這么熱,
美國(guó)舊金山PI Robotics這家機(jī)器人創(chuàng)業(yè)公司,
你真得知道。
我也??此麄儓F(tuán)隊(duì)發(fā)的新模型,
當(dāng)然,很多國(guó)內(nèi)具身智能小伙伴,
比我關(guān)注多了,
因?yàn)檫@家公司走開(kāi)源路線,
有些東西國(guó)內(nèi)也能跟著用。
公司投入大,工作扎實(shí),高速發(fā)展,
是一個(gè)很好的觀察行業(yè)的“錨點(diǎn)”。
用新聞體說(shuō),就是,
Physical Intelligence是美國(guó)具身智能領(lǐng)域的翹楚,
(簡(jiǎn)稱(chēng)PI或π),他們家的模型叫π系列。

講真,機(jī)器人還沒(méi)有真正的記憶系統(tǒng)。
當(dāng)然,有些短的記憶,
也能記清楚一些事情的先后順序。
這里有兩個(gè)概念,請(qǐng)看漫畫(huà):

為啥說(shuō)沒(méi)有記憶系統(tǒng)呢?
要么沒(méi)法存數(shù)分鐘到數(shù)小時(shí)的任務(wù)情況(上下文),
要么堆砌大量原始數(shù)據(jù),導(dǎo)致反應(yīng)遲緩。
這也是為什么大多數(shù)具身智能干活,
只能在“嚴(yán)格控制“幾分鐘”“短任務(wù)”里打轉(zhuǎn),
還有說(shuō)法是單點(diǎn)任務(wù)(技能)還行。
多個(gè)子任務(wù)串聯(lián),
長(zhǎng)時(shí)間,多階段就尷尬了。
也就是說(shuō),即便當(dāng)下的模型,
單步技能點(diǎn)數(shù)很高,
但在面對(duì)長(zhǎng)達(dá)十幾分鐘,
跨多個(gè)階段的任務(wù)時(shí),
它們往往表現(xiàn)得像“金魚(yú)”:
只能記住最近幾秒鐘的視覺(jué)信息(攝像頭畫(huà)面里),
一旦時(shí)間長(zhǎng),
即使是最先進(jìn)的機(jī)器人也會(huì)丟失狀態(tài),
導(dǎo)致錯(cuò)判和重復(fù)錯(cuò)誤。

機(jī)器人干活缺啥能力?
第一,先前啥狀態(tài);
第二,規(guī)劃后續(xù)做啥動(dòng)作;
第三,環(huán)境變了,怎么動(dòng)態(tài)調(diào)整;
真實(shí)環(huán)境從來(lái)不簡(jiǎn)單。
我說(shuō)得很婉轉(zhuǎn),
在文藝晚會(huì)舞臺(tái)上跳舞的機(jī)器人,
這類(lèi)機(jī)器人在仿真系統(tǒng)提升能力,
技能點(diǎn)很單一。
而在受限環(huán)境下行動(dòng),
換個(gè)新環(huán)境干別的活,
恐怕要犯老年癡呆。
35歲以上排隊(duì)領(lǐng)雞蛋的老年人表示,
這是史上被黑的最慘的一次。
對(duì)機(jī)器人來(lái)說(shuō),和金魚(yú)一樣的記憶力是不夠的。
1.記不住過(guò)去做過(guò)啥(步驟);
2.一件東西,攝像頭照的那個(gè)區(qū)里看不見(jiàn),
以前放哪也不記得了。


PI機(jī)器人的記憶模塊,
居然是可插拔的?
是的。
我觀察PI團(tuán)隊(duì),
是在模型大版本迭代后,
才單獨(dú)推出了一個(gè)可插拔的模塊,
(叫MEM,Multi-scale Embodied Memory)。
按道理,應(yīng)該和大版本一起推出,
然而并沒(méi)有。
中科視語(yǔ)CEO趙朝陽(yáng)博士告訴我,
PI公司的模型,從π0.5到π0.6,
技術(shù)提升點(diǎn)很多,
記憶模塊并不在其中,
一方面是值得單獨(dú)拿出來(lái)解決,
另一個(gè)比較合理的解釋?zhuān)?/p>
就是做大版本的時(shí)候,
這個(gè)模塊,還沒(méi)有準(zhǔn)備好;
AI行業(yè)主打一個(gè),
沖刺總在截止日期前,
每家AI公司都一樣,
好在,記憶模塊(MEM)是相對(duì)獨(dú)立的。
“記憶模塊是一個(gè)必備的技能。
所以只不過(guò)是去年這個(gè)節(jié)點(diǎn)上,
我們認(rèn)為記憶這件事兒在具身上也可以弄了,
不像原來(lái)那樣那么虛了?!?/p>
誰(shuí)不想要記憶模塊呢,
我也想要。
所以,有了記憶模塊有啥好?
以前的記憶技術(shù)要么只記細(xì)節(jié)記不住流程,
要么只記流程沒(méi)細(xì)節(jié),
記憶模塊(MEM)直接全搞定,
還解決了兩個(gè)大問(wèn)題:
第一,不卡殼。
視頻編碼器優(yōu)化了速度,
哪怕處理多攝像頭畫(huà)面,
反應(yīng)延遲也低。
第二,不翻車(chē)。
多源數(shù)據(jù)訓(xùn)練避免了“記混動(dòng)作”,
加了記憶還不影響操作精度,
以前加記憶會(huì)變慢的毛病徹底根治。
說(shuō)實(shí)話(huà),這都是長(zhǎng)期困擾業(yè)界的難題。
似乎人人都在“記憶”上下功夫,
兩個(gè)月前,開(kāi)源團(tuán)隊(duì)Deepseek,
也推出了人家的記憶模塊(Engram)。
市面上的知名團(tuán)隊(duì)都在下“記憶力”的功夫。
看上去,“記住”將是智能的下一個(gè)拐點(diǎn)。
從學(xué)術(shù)到產(chǎn)業(yè),
圍繞AI記憶能力的研究正在迅速積聚。
具身智能也沒(méi)落下。


中科紫東太初具身智能部門(mén)負(fù)責(zé)人,
劉榮博士告訴我:
“大家緊盯著VLA狂卷,
因?yàn)閂LA本身的難點(diǎn)實(shí)在也很多。”
具身智能常用的模型類(lèi)型就是,
視覺(jué)-語(yǔ)言-動(dòng)作一體化,簡(jiǎn)稱(chēng)VLA;
俗稱(chēng)技術(shù)路線。
這個(gè)類(lèi)型的模型,
核心概念已經(jīng)清晰,
但方法、優(yōu)化、跨任務(wù)能力仍在優(yōu)化。
我的觀點(diǎn)是,該技術(shù)(模型)處于快速迭代階段,
其實(shí)目前這個(gè)架構(gòu)不錯(cuò),
紅利還沒(méi)有吃完。
所以,大家都在這條道路上狂奔。
當(dāng)然,還是得和行業(yè)一線專(zhuān)家聊一下。
中科紫東太初董事長(zhǎng)王金橋,
他給了我更本質(zhì)的理解:
“這個(gè)架構(gòu)只是科研人員,
沿襲著大模型大力出奇跡的思路,
慣性探索,技術(shù)路線遠(yuǎn)沒(méi)有定型?!?/p>
而中科紫東太初具身智能部門(mén)負(fù)責(zé)人,
劉榮博士告訴我:
“實(shí)現(xiàn)方法、跨本體跨任務(wù)能力仍要優(yōu)化。”
我又和中科視語(yǔ)CEO趙朝陽(yáng)博士,
聊了如何兼顧研發(fā)和工程實(shí)戰(zhàn)的打法:
一種思路,要么模型(VLA),
直接輸出機(jī)器人行動(dòng),
模型把“看到的東西,
得到的指令”和“該怎么動(dòng)”,
結(jié)合在一起思考+行動(dòng),
視覺(jué)模塊,讓它知道所處環(huán)境長(zhǎng)什么樣,
語(yǔ)言模塊,讓它理解任務(wù)目標(biāo),
動(dòng)作模塊則把理解變成行為。

另一種思路,也是參考行業(yè)標(biāo)桿,
FigureAI的路線。
要么用VLM+VLA,
追求極致工程化,
VLM模型協(xié)調(diào)指揮,決策判斷,
VLA模型負(fù)責(zé)單步動(dòng)作執(zhí)行,
如,拉開(kāi)冰箱門(mén)是一個(gè)單步技術(shù)點(diǎn),;
關(guān)上則可能是另一個(gè)。
而打掃客廳衛(wèi)生,就涉及到客廳多大,
窗戶(hù)多高,幾件家具之類(lèi);
打掃客廳衛(wèi)生,需要先擦玻璃、擦桌子,
再掃地,最后拖地。
沒(méi)做過(guò)保潔的人可能壓根不知道,
地,從來(lái)都是留到最后拖的。
沒(méi)搞過(guò)科研學(xué)術(shù)的人可能壓根不知道,
小環(huán)節(jié)小動(dòng)作,都是“多個(gè)子任務(wù)”。
“兩個(gè)模型各負(fù)其責(zé),
工程上也好調(diào)整?!眲s博士如是說(shuō)。

美國(guó)舊金山PI機(jī)器人團(tuán)隊(duì)的出發(fā)點(diǎn),
是想在長(zhǎng)程任務(wù)上做得好。
阻礙機(jī)器人做一系列任務(wù)的核心障礙,
是記憶。
何時(shí)記?。?/p>
記住什么?
如何記?。?/p>
接著,用這些記憶去指導(dǎo),
后面行為與策略規(guī)劃。
簡(jiǎn)單地把機(jī)器人看見(jiàn)的(所有視覺(jué)幀),
填進(jìn)模型的上下文窗口既不現(xiàn)實(shí),
機(jī)器人會(huì)誤把無(wú)關(guān)過(guò)去行為,
當(dāng)成當(dāng)前決策依據(jù)。
比如,機(jī)器人試圖拿起一根小筷子。
如果沒(méi)有記憶功能,
機(jī)器人往往會(huì)反復(fù)以同樣的方式失敗。
因?yàn)樗挥浀弥暗膰L試,
所以只會(huì)重復(fù)相同的行為。
配上BGM,
估計(jì)就成了一刀不剪的B站鬼畜視頻。
而有了記憶功能,
第一次失敗后,
會(huì)設(shè)法成功拿起筷子。
于是,他們團(tuán)隊(duì)為具身智能設(shè)計(jì)的記憶架構(gòu),
就分為兩層。
第一層是短期記憶,
它記錄當(dāng)下的視覺(jué)信息,
保持機(jī)器人對(duì)環(huán)境的持續(xù)感知。
第二層是長(zhǎng)期記憶,
它用文字形式,
保存經(jīng)驗(yàn)和規(guī)則,
讓機(jī)器人能夠跨越較長(zhǎng)時(shí)間,
保持任務(wù)狀態(tài),
按需調(diào)整。
這里有點(diǎn)太技術(shù)了,
按中科視語(yǔ)CEO趙朝陽(yáng)博士的說(shuō)法,
從科研直覺(jué)去理解,
人類(lèi)好久之前的記憶,
會(huì)被總結(jié)成經(jīng)驗(yàn),
——一朝被蛇咬,十年怕井繩;
人類(lèi)近期(短期)記憶,
更具體,更生動(dòng),更多細(xì)節(jié),
非洲大草原上,
沉睡中的母獅,
被黑曼巴毒蛇咬了一口下巴,
獅頭立刻腫成表情包。
學(xué)術(shù)說(shuō)法是:
短期使用細(xì)節(jié)信息支持即時(shí)行為,
長(zhǎng)期用抽象語(yǔ)義保持任務(wù)語(yǔ)境和目標(biāo)邏輯。
趙朝陽(yáng)博士也聊到:
“記憶分層能設(shè)計(jì)得更細(xì)致,
長(zhǎng)短,長(zhǎng)中短,超長(zhǎng)期記憶,等等。
甚至有些永遠(yuǎn)不能被遺忘,比如安全底線?!?/p>
看來(lái)以后都可以這么玩了:
大大大記憶,小小小記憶,
久而久之,研發(fā)同學(xué)說(shuō)話(huà)都結(jié)巴了,
這絕對(duì)是工傷。
細(xì)想起來(lái),這倒是和很多年前,
阿西莫夫機(jī)器人三大定律遙相呼應(yīng):
機(jī)器人不會(huì)傷害人類(lèi)。

記憶本身是個(gè)很宏大的主題,
記憶和現(xiàn)有系統(tǒng)未來(lái)會(huì)是什么形態(tài)?
記憶不只是存下什么,
而是進(jìn)化的底層動(dòng)力:
1.整體目標(biāo)是什么
2.需要先做什么再做什么
3.現(xiàn)在做到哪一步了
4.這一步怎么做
5.下一步該做什么
具身智能目前在這個(gè)大趨勢(shì)上,
要做出來(lái)真正有記憶的機(jī)器人,
如何在復(fù)雜、長(zhǎng)期任務(wù)中持續(xù)成長(zhǎng)和自適應(yīng)。
具身智能只是會(huì)感知、會(huì)執(zhí)行,不夠。
而是會(huì)記住、會(huì)推理,
會(huì)運(yùn)用過(guò)去的經(jīng)驗(yàn)來(lái)塑造未來(lái)的策略。
具身智能這么熱,還有一個(gè)原因,
中科紫東太初董事長(zhǎng)王金橋
是這么說(shuō)的:
“有太多事情可以做,
或者說(shuō),根本做不過(guò)來(lái),
原因是走得最快的是大語(yǔ)言模型,
那么大語(yǔ)言模型踩過(guò)的坑,
一定指導(dǎo)多模態(tài)大模型。
多模態(tài)模型踩過(guò)的坑,
一定指導(dǎo)具身智能大模型?!?/p>
One More thing
下內(nèi)容包含大量科研黑話(huà)和學(xué)術(shù)暴擊,
看不懂不丟人,能看完的都是狠人,
建議非戰(zhàn)斗人員提前服用冰美式。
為什么不用Transformer-XL自回歸?
答案:不用的原因有三個(gè):
第一,必須逐步生成,每步依賴(lài)前一步輸出,
不支持并行推理,效率低。
第二,視覺(jué)幀或連續(xù)動(dòng)作序列很長(zhǎng)時(shí)處理長(zhǎng)序列會(huì)越來(lái)越慢。
第三,缺乏直接視覺(jué)結(jié)構(gòu)建模能力。
為什么PI機(jī)器人的記憶模塊可插拔?
這個(gè)問(wèn)題,趙朝陽(yáng)博士給我好好講了講。
模型π0.6和π0.6*一起發(fā)布的,
加入真機(jī)強(qiáng)化學(xué)習(xí),
這將會(huì)是未來(lái)一段時(shí)間VLA的主流打法。
上一種利器尚且不夠,
再把記憶模塊也加持上。
而以前,
還在用Transformer-XL做自回歸的,
現(xiàn)在都不用了。
MEM設(shè)計(jì)成可插拔不可謂不巧妙,
雙重否定表達(dá)作者非??隙ā?/p>
MEM模型用了谷歌的Gemma3(4B),
這是在π0.5架構(gòu)基礎(chǔ)上的升級(jí)版本,
π0.5使用的是Gemma2.6。
MEM的可插拔特性主要體現(xiàn)在記憶增強(qiáng)模塊上,
分為短期記憶和長(zhǎng)期記憶兩部分。
在短期記憶方面,
模型對(duì)ViT模塊進(jìn)行了優(yōu)化,
使其能夠處理更多歷史觀察幀,
從而提升視覺(jué)信息的吞吐量。
具體來(lái)說(shuō),優(yōu)化主要集中在時(shí)間注意力和空間注意力結(jié)構(gòu)上,
因?yàn)镸EM很新,廠商尚未開(kāi)源,也可以理解。
長(zhǎng)期記憶部分,就更重要了,
甚至可以說(shuō)是最重要的“彈藥”,
那就是數(shù)據(jù)上下功夫。
用大語(yǔ)言模型生成訓(xùn)練數(shù)據(jù)的方式來(lái)增強(qiáng)。
先總結(jié)(抽象在數(shù)據(jù)里),再讓模型學(xué)習(xí)。
Data teaching and machine learning.
模型會(huì)生成類(lèi)似鏈?zhǔn)酵评淼恼涂偨Y(jié)數(shù)據(jù),
造數(shù)據(jù)優(yōu)化長(zhǎng)期記憶,到底怎么做的呢?
我們認(rèn)為:關(guān)鍵在于,
造一個(gè)帶摘要+總結(jié)的樣本數(shù)據(jù),
還要跟他原本樣本的視頻幀情節(jié)時(shí)間步驟對(duì)應(yīng)上
最后,再用這些數(shù)據(jù)訓(xùn)練主干網(wǎng)絡(luò),
(視覺(jué)-語(yǔ)言模型,Gemma),
這樣,長(zhǎng)期記憶不僅能記錄下事件,
還抽象經(jīng)驗(yàn),用于后續(xù)推理。
我感慨整個(gè)設(shè)計(jì)很巧妙,
保證了短期記憶專(zhuān)注于即時(shí)操作信息,
而長(zhǎng)期記憶提供跨任務(wù)的連續(xù)上下文支持。

陶大程是大曉機(jī)器人首席科學(xué)家。目前,他任職于新加坡南洋理工大學(xué),擔(dān)任杰出大學(xué)教授。同時(shí),澳大利亞科學(xué)院院士,歐洲科學(xué)院外籍院士,當(dāng)選IEEE、ACM、AAAS等多個(gè)國(guó)際權(quán)威學(xué)會(huì)會(huì)士。長(zhǎng)期聚焦于將統(tǒng)計(jì)學(xué)和數(shù)學(xué)方法引入人工智能,在表征學(xué)習(xí)、計(jì)算機(jī)視覺(jué)與深度學(xué)習(xí)等方向具有奠基性貢獻(xiàn)。
問(wèn)題一:記憶是個(gè)宏大命題,
以記憶模塊對(duì)現(xiàn)有具身系統(tǒng)的影響來(lái)看,
以您的見(jiàn)識(shí),
未來(lái)會(huì)是個(gè)啥形態(tài)呢?
陶大程教授回答:未來(lái)的記憶,不會(huì)只是一個(gè)“外掛模塊”,而會(huì)成為具身系統(tǒng)的時(shí)間操作系統(tǒng)。因?yàn)锳CE-Brain-0其實(shí)告訴我們,具身統(tǒng)一的難點(diǎn),不在于單個(gè)技能,而在于如何把不同域、不同階段、不同粒度的知識(shí)組織起來(lái)并長(zhǎng)期保留下來(lái);它用spatialscaffold解決的是“跨embodiment的共享結(jié)構(gòu)”問(wèn)題。與之對(duì)稱(chēng),記憶解決的其實(shí)是“跨時(shí)間的共享結(jié)構(gòu)”問(wèn)題。一個(gè)解決“不同機(jī)器人/不同場(chǎng)景之間怎么統(tǒng)一”,一個(gè)解決“同一個(gè)機(jī)器人在不同時(shí)間怎么連續(xù)”。所以未來(lái)真正強(qiáng)的具身系統(tǒng),一定不是單純的VLA,而是空間骨架+時(shí)間記憶的耦合系統(tǒng)。
因此,未來(lái)具身里的記憶形態(tài),可能會(huì)有五層:
第一層是感知工作記憶。這層記最近幾秒到幾十秒的視覺(jué)、觸覺(jué)、位姿和交互狀態(tài),用來(lái)處理遮擋、局部失誤、抓取重試、視野之外的短時(shí)補(bǔ)償。
第二層是情節(jié)記憶。它記錄“剛剛發(fā)生了什么、哪一步成功了、哪一步失敗了、失敗后換過(guò)什么策略”,服務(wù)分鐘級(jí)任務(wù)。
第三層是語(yǔ)義/程序記憶。它不是記細(xì)節(jié)畫(huà)面,而是記“我現(xiàn)在做到哪一步、這個(gè)任務(wù)的標(biāo)準(zhǔn)順序是什么、這個(gè)對(duì)象通常應(yīng)該如何處理”。
第四層是空間記憶。這是ACE-Brain-0給你的重要啟發(fā):未來(lái)記憶不能只是文本摘要,還必須帶有空間scaffold,也就是物體位置、相對(duì)關(guān)系、可達(dá)性、場(chǎng)景拓?fù)洹?/p>
第五層是反事實(shí)記憶,也就是可執(zhí)行的世界表征:不是只記“過(guò)去如何”,還要能內(nèi)部模擬“未來(lái)可能如何”。這是worldmodel真正進(jìn)入具身主干之后,記憶會(huì)新增的一層。
第六層是不可遺忘記憶。未來(lái)機(jī)器人一定會(huì)有一部分memory不是為了提升任務(wù)成功率,而是為了固化安全邊界、人體禁區(qū)、設(shè)備極限、規(guī)范流程。
未來(lái)的具身記憶,不是更大的contextwindow,而是“分層的、空間化的、可調(diào)用的、可修訂的、可執(zhí)行的MemoryOS”。
問(wèn)題二:具身借鑒LLM經(jīng)驗(yàn),
借鑒VLM經(jīng)驗(yàn)是必然的,
本質(zhì)該怎么理解?
陶大程教授回答:具身借鑒LLM/VLM,不是在借一個(gè)模型外形,而是在借一整套“如何從海量異構(gòu)數(shù)據(jù)中提煉共享先驗(yàn)、再把共享先驗(yàn)遷移到具體任務(wù)”的方法論。
第一層本質(zhì),是抽象壓縮能力;
第二層本質(zhì),是跨模態(tài)對(duì)齊能力;
第三層本質(zhì),是空間共享能力
(ACE-Brain-0:sharedscaffold);
第四層本質(zhì),是自舉改進(jìn)能力
(self-evolutionlearning,
為worldmodel提供了機(jī)制性側(cè)證);
第五層本質(zhì),是有組織的訓(xùn)練
(ACE-Brain-0)。
第三層:ACE-Brain-0給出了自動(dòng)駕駛、無(wú)人機(jī)、機(jī)器人操作雖然形態(tài)不同、動(dòng)作空間不同,但都依賴(lài)3D空間理解、物體布局建模、幾何關(guān)系推理和空間后果預(yù)測(cè)。
第四層:ACE-Brain-0其實(shí)也在回答,
“為什么不能所有東西一鍋燉”。
混合jointtraining會(huì)帶來(lái)長(zhǎng)尾分布、
梯度干擾、領(lǐng)域稀釋?zhuān)?/p>
順序微調(diào)又會(huì)造成災(zāi)難性遺忘。所以需要Specialize-Reconcile:
先建專(zhuān)業(yè)能力,最后再融合。
問(wèn)題三:您的論文中曾強(qiáng)調(diào),
“通用具身智能要求在異構(gòu)具身
(例如自動(dòng)駕駛、機(jī)器人和無(wú)人機(jī)),
之間具備強(qiáng)大的泛化能力?!?/p>
具身作為前沿技術(shù)技術(shù),
您是如何理解目前具身產(chǎn)業(yè)的?
陶大程教授回答:
第一,不能把具身產(chǎn)業(yè)只理解成,
“人形機(jī)器人產(chǎn)業(yè)”。
第二,產(chǎn)業(yè)真正的壁壘不是模型本身,
而是“經(jīng)驗(yàn)回流閉環(huán)”。
產(chǎn)業(yè)中的記憶,不只是模型內(nèi)部記憶,
更是企業(yè)級(jí)經(jīng)驗(yàn)記憶。
第三,產(chǎn)業(yè)落地不是單靠端到端autonomy,
而是“自動(dòng)化+人類(lèi)兜底+再學(xué)習(xí)”的混合系統(tǒng)。
第四,世界模型(World Model),
將成為產(chǎn)業(yè)主戰(zhàn)場(chǎng),
支撐Physical AI的規(guī)?;?xùn)練。
未來(lái)Physical AI的真正基礎(chǔ)設(shè)施,
會(huì)包括一個(gè)可擴(kuò)展、可校準(zhǔn)、可評(píng)測(cè)、可生成數(shù)據(jù)的worldmodel。
第五,數(shù)據(jù)供給方式本身,就是產(chǎn)業(yè)路線分水嶺。
FYI,請(qǐng)自?。?/p>
π?
論文標(biāo)題:《π?: A Vision-Language-Action Flow Model for General Robot Control》
論文地址:https://arxiv.org/pdf/2410.24164
π0.5
論文標(biāo)題:《π0.5: a Vision-Language-Action Model with Open-World Generalization》
論文地址:https://arxiv.org/pdf/2504.16054
π*?.?
論文標(biāo)題:《π*(0.6): a VLA That Learns From Experience》
論文地址:https://arxiv.org/pdf/2511.14759v2
Reference:
1. Ziyang Gong, Zehang Luo, Anke Tang, et al.: ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments. arXiv:2603.03198
2. Shi Fu, Yingjie Wang, Yuzhu Chen, Xinmei Tian, Dacheng Tao: A Theoretical Perspective: How to Prevent Model Collapse in Self-consuming Training Loops. ICLR 2025
本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2026 上海東方報(bào)業(yè)有限公司




