下載客戶(hù)端

登錄

“26年具身智能，做不過(guò)來(lái)，根本做不過(guò)來(lái)”：含陶大程教授獨(dú)家專(zhuān)訪 l 深度產(chǎn)業(yè)觀察

2026-04-08 14:34

來(lái)源：澎湃新聞·澎湃號(hào)·湃客

聽(tīng)全文

2026年具身智能這么熱，

美國(guó)舊金山PI Robotics這家機(jī)器人創(chuàng)業(yè)公司，

你真得知道。

我也?？此麄儓F(tuán)隊(duì)發(fā)的新模型，

當(dāng)然，很多國(guó)內(nèi)具身智能小伙伴，

比我關(guān)注多了，

因?yàn)檫@家公司走開(kāi)源路線，

有些東西國(guó)內(nèi)也能跟著用。

公司投入大，工作扎實(shí)，高速發(fā)展，

是一個(gè)很好的觀察行業(yè)的“錨點(diǎn)”。

用新聞體說(shuō)，就是，

Physical Intelligence是美國(guó)具身智能領(lǐng)域的翹楚，

（簡(jiǎn)稱(chēng)PI或π），他們家的模型叫π系列。

講真，機(jī)器人還沒(méi)有真正的記憶系統(tǒng)。

當(dāng)然，有些短的記憶，

也能記清楚一些事情的先后順序。

這里有兩個(gè)概念，請(qǐng)看漫畫(huà)：

為啥說(shuō)沒(méi)有記憶系統(tǒng)呢？

要么沒(méi)法存數(shù)分鐘到數(shù)小時(shí)的任務(wù)情況（上下文），

要么堆砌大量原始數(shù)據(jù)，導(dǎo)致反應(yīng)遲緩。

這也是為什么大多數(shù)具身智能干活，

只能在“嚴(yán)格控制“幾分鐘”“短任務(wù)”里打轉(zhuǎn)，

還有說(shuō)法是單點(diǎn)任務(wù)（技能）還行。

多個(gè)子任務(wù)串聯(lián)，

長(zhǎng)時(shí)間，多階段就尷尬了。

也就是說(shuō)，即便當(dāng)下的模型，

單步技能點(diǎn)數(shù)很高，

但在面對(duì)長(zhǎng)達(dá)十幾分鐘，

跨多個(gè)階段的任務(wù)時(shí)，

它們往往表現(xiàn)得像“金魚(yú)”：

只能記住最近幾秒鐘的視覺(jué)信息（攝像頭畫(huà)面里），

一旦時(shí)間長(zhǎng)，

即使是最先進(jìn)的機(jī)器人也會(huì)丟失狀態(tài)，

導(dǎo)致錯(cuò)判和重復(fù)錯(cuò)誤。

機(jī)器人干活缺啥能力？

第一，先前啥狀態(tài)；

第二，規(guī)劃后續(xù)做啥動(dòng)作；

第三，環(huán)境變了，怎么動(dòng)態(tài)調(diào)整；

真實(shí)環(huán)境從來(lái)不簡(jiǎn)單。

我說(shuō)得很婉轉(zhuǎn)，

在文藝晚會(huì)舞臺(tái)上跳舞的機(jī)器人，

這類(lèi)機(jī)器人在仿真系統(tǒng)提升能力，

技能點(diǎn)很單一。

而在受限環(huán)境下行動(dòng)，

換個(gè)新環(huán)境干別的活，

恐怕要犯老年癡呆。

35歲以上排隊(duì)領(lǐng)雞蛋的老年人表示，

這是史上被黑的最慘的一次。

對(duì)機(jī)器人來(lái)說(shuō)，和金魚(yú)一樣的記憶力是不夠的。

1.記不住過(guò)去做過(guò)啥（步驟）；

2.一件東西，攝像頭照的那個(gè)區(qū)里看不見(jiàn)，

以前放哪也不記得了。

PI機(jī)器人的記憶模塊，

居然是可插拔的？

是的。

我觀察PI團(tuán)隊(duì)，

是在模型大版本迭代后，

才單獨(dú)推出了一個(gè)可插拔的模塊，

（叫MEM，Multi-scale Embodied Memory）。

按道理，應(yīng)該和大版本一起推出，

然而并沒(méi)有。

中科視語(yǔ)CEO趙朝陽(yáng)博士告訴我，

PI公司的模型，從π0.5到π0.6，

技術(shù)提升點(diǎn)很多，

記憶模塊并不在其中，

一方面是值得單獨(dú)拿出來(lái)解決，

另一個(gè)比較合理的解釋?zhuān)?/p>

就是做大版本的時(shí)候，

這個(gè)模塊，還沒(méi)有準(zhǔn)備好；

AI行業(yè)主打一個(gè)，

沖刺總在截止日期前，

每家AI公司都一樣，

好在，記憶模塊（MEM）是相對(duì)獨(dú)立的。

“記憶模塊是一個(gè)必備的技能。

所以只不過(guò)是去年這個(gè)節(jié)點(diǎn)上，

我們認(rèn)為記憶這件事兒在具身上也可以弄了，

不像原來(lái)那樣那么虛了?！?/p>

誰(shuí)不想要記憶模塊呢，

我也想要。

所以，有了記憶模塊有啥好？

以前的記憶技術(shù)要么只記細(xì)節(jié)記不住流程，

要么只記流程沒(méi)細(xì)節(jié)，

記憶模塊（MEM）直接全搞定，

還解決了兩個(gè)大問(wèn)題：

第一，不卡殼。

視頻編碼器優(yōu)化了速度，

哪怕處理多攝像頭畫(huà)面，

反應(yīng)延遲也低。

第二，不翻車(chē)。

多源數(shù)據(jù)訓(xùn)練避免了“記混動(dòng)作”，

加了記憶還不影響操作精度，

以前加記憶會(huì)變慢的毛病徹底根治。

說(shuō)實(shí)話(huà)，這都是長(zhǎng)期困擾業(yè)界的難題。

似乎人人都在“記憶”上下功夫，

兩個(gè)月前，開(kāi)源團(tuán)隊(duì)Deepseek，

也推出了人家的記憶模塊（Engram）。

市面上的知名團(tuán)隊(duì)都在下“記憶力”的功夫。

看上去，“記住”將是智能的下一個(gè)拐點(diǎn)。

從學(xué)術(shù)到產(chǎn)業(yè)，

圍繞AI記憶能力的研究正在迅速積聚。

具身智能也沒(méi)落下。

中科紫東太初具身智能部門(mén)負(fù)責(zé)人，

劉榮博士告訴我：

“大家緊盯著VLA狂卷，

因?yàn)閂LA本身的難點(diǎn)實(shí)在也很多。”

具身智能常用的模型類(lèi)型就是，

視覺(jué)-語(yǔ)言-動(dòng)作一體化，簡(jiǎn)稱(chēng)VLA；

俗稱(chēng)技術(shù)路線。

這個(gè)類(lèi)型的模型，

核心概念已經(jīng)清晰，

但方法、優(yōu)化、跨任務(wù)能力仍在優(yōu)化。

我的觀點(diǎn)是，該技術(shù)（模型）處于快速迭代階段，

其實(shí)目前這個(gè)架構(gòu)不錯(cuò)，

紅利還沒(méi)有吃完。

所以，大家都在這條道路上狂奔。

當(dāng)然，還是得和行業(yè)一線專(zhuān)家聊一下。

中科紫東太初董事長(zhǎng)王金橋，

他給了我更本質(zhì)的理解：

“這個(gè)架構(gòu)只是科研人員，

沿襲著大模型大力出奇跡的思路，

慣性探索，技術(shù)路線遠(yuǎn)沒(méi)有定型?！?/p>

而中科紫東太初具身智能部門(mén)負(fù)責(zé)人，

劉榮博士告訴我：

“實(shí)現(xiàn)方法、跨本體跨任務(wù)能力仍要優(yōu)化。”

我又和中科視語(yǔ)CEO趙朝陽(yáng)博士，

聊了如何兼顧研發(fā)和工程實(shí)戰(zhàn)的打法：

一種思路，要么模型（VLA），

直接輸出機(jī)器人行動(dòng)，

模型把“看到的東西，

得到的指令”和“該怎么動(dòng)”，

結(jié)合在一起思考+行動(dòng)，

視覺(jué)模塊，讓它知道所處環(huán)境長(zhǎng)什么樣，

語(yǔ)言模塊，讓它理解任務(wù)目標(biāo)，

動(dòng)作模塊則把理解變成行為。

另一種思路，也是參考行業(yè)標(biāo)桿，

FigureAI的路線。

要么用VLM+VLA，

追求極致工程化，

VLM模型協(xié)調(diào)指揮，決策判斷，

VLA模型負(fù)責(zé)單步動(dòng)作執(zhí)行，

如，拉開(kāi)冰箱門(mén)是一個(gè)單步技術(shù)點(diǎn)，；

關(guān)上則可能是另一個(gè)。

而打掃客廳衛(wèi)生，就涉及到客廳多大，

窗戶(hù)多高，幾件家具之類(lèi)；

打掃客廳衛(wèi)生，需要先擦玻璃、擦桌子，

再掃地，最后拖地。

沒(méi)做過(guò)保潔的人可能壓根不知道，

地，從來(lái)都是留到最后拖的。

沒(méi)搞過(guò)科研學(xué)術(shù)的人可能壓根不知道，

小環(huán)節(jié)小動(dòng)作，都是“多個(gè)子任務(wù)”。

“兩個(gè)模型各負(fù)其責(zé)，

工程上也好調(diào)整?！眲s博士如是說(shuō)。

美國(guó)舊金山PI機(jī)器人團(tuán)隊(duì)的出發(fā)點(diǎn)，

是想在長(zhǎng)程任務(wù)上做得好。

阻礙機(jī)器人做一系列任務(wù)的核心障礙，

是記憶。

何時(shí)記?。?/p>

記住什么？

如何記?。?/p>

接著，用這些記憶去指導(dǎo)，

后面行為與策略規(guī)劃。

簡(jiǎn)單地把機(jī)器人看見(jiàn)的（所有視覺(jué)幀），

填進(jìn)模型的上下文窗口既不現(xiàn)實(shí)，

機(jī)器人會(huì)誤把無(wú)關(guān)過(guò)去行為，

當(dāng)成當(dāng)前決策依據(jù)。

比如，機(jī)器人試圖拿起一根小筷子。

如果沒(méi)有記憶功能，

機(jī)器人往往會(huì)反復(fù)以同樣的方式失敗。

因?yàn)樗挥浀弥暗膰L試，

所以只會(huì)重復(fù)相同的行為。

配上BGM，

估計(jì)就成了一刀不剪的B站鬼畜視頻。

而有了記憶功能，

第一次失敗后，

會(huì)設(shè)法成功拿起筷子。

于是，他們團(tuán)隊(duì)為具身智能設(shè)計(jì)的記憶架構(gòu)，

就分為兩層。

第一層是短期記憶，

它記錄當(dāng)下的視覺(jué)信息，

保持機(jī)器人對(duì)環(huán)境的持續(xù)感知。

第二層是長(zhǎng)期記憶，

它用文字形式，

保存經(jīng)驗(yàn)和規(guī)則，

讓機(jī)器人能夠跨越較長(zhǎng)時(shí)間，

保持任務(wù)狀態(tài)，

按需調(diào)整。

這里有點(diǎn)太技術(shù)了，

按中科視語(yǔ)CEO趙朝陽(yáng)博士的說(shuō)法，

從科研直覺(jué)去理解，

人類(lèi)好久之前的記憶，

會(huì)被總結(jié)成經(jīng)驗(yàn)，

——一朝被蛇咬，十年怕井繩；

人類(lèi)近期（短期）記憶，

更具體，更生動(dòng)，更多細(xì)節(jié)，

非洲大草原上，

沉睡中的母獅，

被黑曼巴毒蛇咬了一口下巴，

獅頭立刻腫成表情包。

學(xué)術(shù)說(shuō)法是：

短期使用細(xì)節(jié)信息支持即時(shí)行為，

長(zhǎng)期用抽象語(yǔ)義保持任務(wù)語(yǔ)境和目標(biāo)邏輯。

趙朝陽(yáng)博士也聊到：

“記憶分層能設(shè)計(jì)得更細(xì)致，

長(zhǎng)短，長(zhǎng)中短，超長(zhǎng)期記憶，等等。

甚至有些永遠(yuǎn)不能被遺忘，比如安全底線?！?/p>

看來(lái)以后都可以這么玩了：

大大大記憶，小小小記憶，

久而久之，研發(fā)同學(xué)說(shuō)話(huà)都結(jié)巴了，

這絕對(duì)是工傷。

細(xì)想起來(lái)，這倒是和很多年前，

阿西莫夫機(jī)器人三大定律遙相呼應(yīng)：

機(jī)器人不會(huì)傷害人類(lèi)。

記憶本身是個(gè)很宏大的主題，

記憶和現(xiàn)有系統(tǒng)未來(lái)會(huì)是什么形態(tài)？

記憶不只是存下什么，

而是進(jìn)化的底層動(dòng)力：

1.整體目標(biāo)是什么

2.需要先做什么再做什么

3.現(xiàn)在做到哪一步了

4.這一步怎么做

5.下一步該做什么

具身智能目前在這個(gè)大趨勢(shì)上，

要做出來(lái)真正有記憶的機(jī)器人，

如何在復(fù)雜、長(zhǎng)期任務(wù)中持續(xù)成長(zhǎng)和自適應(yīng)。

具身智能只是會(huì)感知、會(huì)執(zhí)行，不夠。

而是會(huì)記住、會(huì)推理，

會(huì)運(yùn)用過(guò)去的經(jīng)驗(yàn)來(lái)塑造未來(lái)的策略。

具身智能這么熱，還有一個(gè)原因，

中科紫東太初董事長(zhǎng)王金橋

是這么說(shuō)的：

“有太多事情可以做，

或者說(shuō)，根本做不過(guò)來(lái)，

原因是走得最快的是大語(yǔ)言模型，

那么大語(yǔ)言模型踩過(guò)的坑，

一定指導(dǎo)多模態(tài)大模型。

多模態(tài)模型踩過(guò)的坑，

一定指導(dǎo)具身智能大模型?！?/p>

One More thing

下內(nèi)容包含大量科研黑話(huà)和學(xué)術(shù)暴擊，

看不懂不丟人，能看完的都是狠人，

建議非戰(zhàn)斗人員提前服用冰美式。

為什么不用Transformer-XL自回歸？

答案：不用的原因有三個(gè)：

第一，必須逐步生成，每步依賴(lài)前一步輸出，

不支持并行推理，效率低。

第二，視覺(jué)幀或連續(xù)動(dòng)作序列很長(zhǎng)時(shí)處理長(zhǎng)序列會(huì)越來(lái)越慢。

第三，缺乏直接視覺(jué)結(jié)構(gòu)建模能力。

為什么PI機(jī)器人的記憶模塊可插拔？

這個(gè)問(wèn)題，趙朝陽(yáng)博士給我好好講了講。

模型π0.6和π0.6*一起發(fā)布的，

加入真機(jī)強(qiáng)化學(xué)習(xí)，

這將會(huì)是未來(lái)一段時(shí)間VLA的主流打法。

上一種利器尚且不夠，

再把記憶模塊也加持上。

而以前，

還在用Transformer-XL做自回歸的，

現(xiàn)在都不用了。

MEM設(shè)計(jì)成可插拔不可謂不巧妙，

雙重否定表達(dá)作者非?？隙ā?/p>

MEM模型用了谷歌的Gemma3（4B），

這是在π0.5架構(gòu)基礎(chǔ)上的升級(jí)版本，

π0.5使用的是Gemma2.6。

MEM的可插拔特性主要體現(xiàn)在記憶增強(qiáng)模塊上，

分為短期記憶和長(zhǎng)期記憶兩部分。

在短期記憶方面，

模型對(duì)ViT模塊進(jìn)行了優(yōu)化，

使其能夠處理更多歷史觀察幀，

從而提升視覺(jué)信息的吞吐量。

具體來(lái)說(shuō)，優(yōu)化主要集中在時(shí)間注意力和空間注意力結(jié)構(gòu)上，

因?yàn)镸EM很新，廠商尚未開(kāi)源，也可以理解。

長(zhǎng)期記憶部分，就更重要了，

甚至可以說(shuō)是最重要的“彈藥”，

那就是數(shù)據(jù)上下功夫。

用大語(yǔ)言模型生成訓(xùn)練數(shù)據(jù)的方式來(lái)增強(qiáng)。

先總結(jié)（抽象在數(shù)據(jù)里），再讓模型學(xué)習(xí)。

Data teaching and machine learning.

模型會(huì)生成類(lèi)似鏈?zhǔn)酵评淼恼涂偨Y(jié)數(shù)據(jù)，

造數(shù)據(jù)優(yōu)化長(zhǎng)期記憶，到底怎么做的呢？

我們認(rèn)為：關(guān)鍵在于，

造一個(gè)帶摘要+總結(jié)的樣本數(shù)據(jù)，

還要跟他原本樣本的視頻幀情節(jié)時(shí)間步驟對(duì)應(yīng)上

最后，再用這些數(shù)據(jù)訓(xùn)練主干網(wǎng)絡(luò)，

（視覺(jué)-語(yǔ)言模型，Gemma），

這樣，長(zhǎng)期記憶不僅能記錄下事件，

還抽象經(jīng)驗(yàn)，用于后續(xù)推理。

我感慨整個(gè)設(shè)計(jì)很巧妙，

保證了短期記憶專(zhuān)注于即時(shí)操作信息，

而長(zhǎng)期記憶提供跨任務(wù)的連續(xù)上下文支持。

陶大程是大曉機(jī)器人首席科學(xué)家。目前，他任職于新加坡南洋理工大學(xué)，擔(dān)任杰出大學(xué)教授。同時(shí)，澳大利亞科學(xué)院院士，歐洲科學(xué)院外籍院士，當(dāng)選IEEE、ACM、AAAS等多個(gè)國(guó)際權(quán)威學(xué)會(huì)會(huì)士。長(zhǎng)期聚焦于將統(tǒng)計(jì)學(xué)和數(shù)學(xué)方法引入人工智能，在表征學(xué)習(xí)、計(jì)算機(jī)視覺(jué)與深度學(xué)習(xí)等方向具有奠基性貢獻(xiàn)。

問(wèn)題一：記憶是個(gè)宏大命題，

以記憶模塊對(duì)現(xiàn)有具身系統(tǒng)的影響來(lái)看，

以您的見(jiàn)識(shí)，

未來(lái)會(huì)是個(gè)啥形態(tài)呢？

陶大程教授回答：未來(lái)的記憶，不會(huì)只是一個(gè)“外掛模塊”，而會(huì)成為具身系統(tǒng)的時(shí)間操作系統(tǒng)。因?yàn)锳CE-Brain-0其實(shí)告訴我們，具身統(tǒng)一的難點(diǎn)，不在于單個(gè)技能，而在于如何把不同域、不同階段、不同粒度的知識(shí)組織起來(lái)并長(zhǎng)期保留下來(lái)；它用spatialscaffold解決的是“跨embodiment的共享結(jié)構(gòu)”問(wèn)題。與之對(duì)稱(chēng)，記憶解決的其實(shí)是“跨時(shí)間的共享結(jié)構(gòu)”問(wèn)題。一個(gè)解決“不同機(jī)器人/不同場(chǎng)景之間怎么統(tǒng)一”，一個(gè)解決“同一個(gè)機(jī)器人在不同時(shí)間怎么連續(xù)”。所以未來(lái)真正強(qiáng)的具身系統(tǒng)，一定不是單純的VLA，而是空間骨架+時(shí)間記憶的耦合系統(tǒng)。

因此，未來(lái)具身里的記憶形態(tài)，可能會(huì)有五層：

第一層是感知工作記憶。這層記最近幾秒到幾十秒的視覺(jué)、觸覺(jué)、位姿和交互狀態(tài)，用來(lái)處理遮擋、局部失誤、抓取重試、視野之外的短時(shí)補(bǔ)償。

第二層是情節(jié)記憶。它記錄“剛剛發(fā)生了什么、哪一步成功了、哪一步失敗了、失敗后換過(guò)什么策略”，服務(wù)分鐘級(jí)任務(wù)。

第三層是語(yǔ)義/程序記憶。它不是記細(xì)節(jié)畫(huà)面，而是記“我現(xiàn)在做到哪一步、這個(gè)任務(wù)的標(biāo)準(zhǔn)順序是什么、這個(gè)對(duì)象通常應(yīng)該如何處理”。

第四層是空間記憶。這是ACE-Brain-0給你的重要啟發(fā)：未來(lái)記憶不能只是文本摘要，還必須帶有空間scaffold，也就是物體位置、相對(duì)關(guān)系、可達(dá)性、場(chǎng)景拓?fù)洹?/p>

第五層是反事實(shí)記憶，也就是可執(zhí)行的世界表征：不是只記“過(guò)去如何”，還要能內(nèi)部模擬“未來(lái)可能如何”。這是worldmodel真正進(jìn)入具身主干之后，記憶會(huì)新增的一層。

第六層是不可遺忘記憶。未來(lái)機(jī)器人一定會(huì)有一部分memory不是為了提升任務(wù)成功率，而是為了固化安全邊界、人體禁區(qū)、設(shè)備極限、規(guī)范流程。

未來(lái)的具身記憶，不是更大的contextwindow，而是“分層的、空間化的、可調(diào)用的、可修訂的、可執(zhí)行的MemoryOS”。

問(wèn)題二：具身借鑒LLM經(jīng)驗(yàn)，

借鑒VLM經(jīng)驗(yàn)是必然的，

本質(zhì)該怎么理解？

陶大程教授回答：具身借鑒LLM/VLM，不是在借一個(gè)模型外形，而是在借一整套“如何從海量異構(gòu)數(shù)據(jù)中提煉共享先驗(yàn)、再把共享先驗(yàn)遷移到具體任務(wù)”的方法論。

第一層本質(zhì)，是抽象壓縮能力；

第二層本質(zhì)，是跨模態(tài)對(duì)齊能力；

第三層本質(zhì)，是空間共享能力

（ACE-Brain-0：sharedscaffold）；

第四層本質(zhì)，是自舉改進(jìn)能力

（self-evolutionlearning，

為worldmodel提供了機(jī)制性側(cè)證）；

第五層本質(zhì)，是有組織的訓(xùn)練

（ACE-Brain-0）。

第三層：ACE-Brain-0給出了自動(dòng)駕駛、無(wú)人機(jī)、機(jī)器人操作雖然形態(tài)不同、動(dòng)作空間不同，但都依賴(lài)3D空間理解、物體布局建模、幾何關(guān)系推理和空間后果預(yù)測(cè)。

第四層：ACE-Brain-0其實(shí)也在回答，

“為什么不能所有東西一鍋燉”。

混合jointtraining會(huì)帶來(lái)長(zhǎng)尾分布、

梯度干擾、領(lǐng)域稀釋?zhuān)?/p>

順序微調(diào)又會(huì)造成災(zāi)難性遺忘。所以需要Specialize-Reconcile：

先建專(zhuān)業(yè)能力，最后再融合。

問(wèn)題三：您的論文中曾強(qiáng)調(diào)，

“通用具身智能要求在異構(gòu)具身

（例如自動(dòng)駕駛、機(jī)器人和無(wú)人機(jī)），

之間具備強(qiáng)大的泛化能力?！?/p>

具身作為前沿技術(shù)技術(shù)，

您是如何理解目前具身產(chǎn)業(yè)的？

陶大程教授回答：

第一，不能把具身產(chǎn)業(yè)只理解成，

“人形機(jī)器人產(chǎn)業(yè)”。

第二，產(chǎn)業(yè)真正的壁壘不是模型本身，

而是“經(jīng)驗(yàn)回流閉環(huán)”。

產(chǎn)業(yè)中的記憶，不只是模型內(nèi)部記憶，

更是企業(yè)級(jí)經(jīng)驗(yàn)記憶。

第三，產(chǎn)業(yè)落地不是單靠端到端autonomy，

而是“自動(dòng)化+人類(lèi)兜底+再學(xué)習(xí)”的混合系統(tǒng)。

第四，世界模型（World Model），

將成為產(chǎn)業(yè)主戰(zhàn)場(chǎng)，

支撐Physical AI的規(guī)?；?xùn)練。

未來(lái)Physical AI的真正基礎(chǔ)設(shè)施，

會(huì)包括一個(gè)可擴(kuò)展、可校準(zhǔn)、可評(píng)測(cè)、可生成數(shù)據(jù)的worldmodel。

第五，數(shù)據(jù)供給方式本身，就是產(chǎn)業(yè)路線分水嶺。

FYI，請(qǐng)自?。?/p>

π?

論文標(biāo)題：《π?: A Vision-Language-Action Flow Model for General Robot Control》

論文地址：https://arxiv.org/pdf/2410.24164

π0.5

論文標(biāo)題：《π0.5: a Vision-Language-Action Model with Open-World Generalization》

論文地址：https://arxiv.org/pdf/2504.16054

π*?.?

論文標(biāo)題：《π*(0.6): a VLA That Learns From Experience》

論文地址：https://arxiv.org/pdf/2511.14759v2

Reference:

1. Ziyang Gong, Zehang Luo, Anke Tang, et al.: ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments. arXiv:2603.03198

2. Shi Fu, Yingjie Wang, Yuzhu Chen, Xinmei Tian, Dacheng Tao: A Theoretical Perspective: How to Prevent Model Collapse in Self-consuming Training Loops. ICLR 2025

特別聲明

本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機(jī)構(gòu)觀點(diǎn)，不代表澎湃新聞的觀點(diǎn)或立場(chǎng)，澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。

我要舉報(bào)

#機(jī)器人