中文字幕国产91无码|AV成人手机在线|av成人先锋在线|911无码在线国产人人操|91蜜桃视频精品免费在线|极品美女A∨片在线看|日韩在线成人视频日韩|电影三级成人黄免费影片|超碰97国产在线|国产成人精品色情免费视频

  • +1

“26年具身智能,做不過(guò)來(lái),根本做不過(guò)來(lái)”:含陶大程教授獨(dú)家專(zhuān)訪 l 深度產(chǎn)業(yè)觀察

2026-04-08 14:34
來(lái)源:澎湃新聞·澎湃號(hào)·湃客
聽(tīng)全文
字號(hào)

2026年具身智能這么熱,

美國(guó)舊金山PI Robotics這家機(jī)器人創(chuàng)業(yè)公司,

你真得知道。

我也??此麄儓F(tuán)隊(duì)發(fā)的新模型,

當(dāng)然,很多國(guó)內(nèi)具身智能小伙伴,

比我關(guān)注多了,

因?yàn)檫@家公司走開(kāi)源路線,

有些東西國(guó)內(nèi)也能跟著用。

公司投入大,工作扎實(shí),高速發(fā)展,

是一個(gè)很好的觀察行業(yè)的“錨點(diǎn)”。

用新聞體說(shuō),就是,

Physical Intelligence是美國(guó)具身智能領(lǐng)域的翹楚,

(簡(jiǎn)稱(chēng)PI或π),他們家的模型叫π系列。

講真,機(jī)器人還沒(méi)有真正的記憶系統(tǒng)。

當(dāng)然,有些短的記憶,

也能記清楚一些事情的先后順序。

這里有兩個(gè)概念,請(qǐng)看漫畫(huà):

為啥說(shuō)沒(méi)有記憶系統(tǒng)呢?

要么沒(méi)法存數(shù)分鐘到數(shù)小時(shí)的任務(wù)情況(上下文),

要么堆砌大量原始數(shù)據(jù),導(dǎo)致反應(yīng)遲緩。

這也是為什么大多數(shù)具身智能干活,

只能在“嚴(yán)格控制“幾分鐘”“短任務(wù)”里打轉(zhuǎn),

還有說(shuō)法是單點(diǎn)任務(wù)(技能)還行。

多個(gè)子任務(wù)串聯(lián),

長(zhǎng)時(shí)間,多階段就尷尬了。

也就是說(shuō),即便當(dāng)下的模型,

單步技能點(diǎn)數(shù)很高,

但在面對(duì)長(zhǎng)達(dá)十幾分鐘,

跨多個(gè)階段的任務(wù)時(shí),

它們往往表現(xiàn)得像“金魚(yú)”:

只能記住最近幾秒鐘的視覺(jué)信息(攝像頭畫(huà)面里),

一旦時(shí)間長(zhǎng),

即使是最先進(jìn)的機(jī)器人也會(huì)丟失狀態(tài),

導(dǎo)致錯(cuò)判和重復(fù)錯(cuò)誤。

機(jī)器人干活缺啥能力?

第一,先前啥狀態(tài);

第二,規(guī)劃后續(xù)做啥動(dòng)作;

第三,環(huán)境變了,怎么動(dòng)態(tài)調(diào)整;

真實(shí)環(huán)境從來(lái)不簡(jiǎn)單。

我說(shuō)得很婉轉(zhuǎn),

在文藝晚會(huì)舞臺(tái)上跳舞的機(jī)器人,

這類(lèi)機(jī)器人在仿真系統(tǒng)提升能力,

技能點(diǎn)很單一。

而在受限環(huán)境下行動(dòng),

換個(gè)新環(huán)境干別的活,

恐怕要犯老年癡呆。

35歲以上排隊(duì)領(lǐng)雞蛋的老年人表示,

這是史上被黑的最慘的一次。

對(duì)機(jī)器人來(lái)說(shuō),和金魚(yú)一樣的記憶力是不夠的。

1.記不住過(guò)去做過(guò)啥(步驟);

2.一件東西,攝像頭照的那個(gè)區(qū)里看不見(jiàn),

以前放哪也不記得了。

PI機(jī)器人的記憶模塊,

居然是可插拔的?

是的。

我觀察PI團(tuán)隊(duì),

是在模型大版本迭代后,

才單獨(dú)推出了一個(gè)可插拔的模塊,

(叫MEM,Multi-scale Embodied Memory)。

按道理,應(yīng)該和大版本一起推出,

然而并沒(méi)有。

中科視語(yǔ)CEO趙朝陽(yáng)博士告訴我,

PI公司的模型,從π0.5到π0.6,

技術(shù)提升點(diǎn)很多,

記憶模塊并不在其中,

一方面是值得單獨(dú)拿出來(lái)解決,

另一個(gè)比較合理的解釋?zhuān)?/p>

就是做大版本的時(shí)候,

這個(gè)模塊,還沒(méi)有準(zhǔn)備好;

AI行業(yè)主打一個(gè),

沖刺總在截止日期前,

每家AI公司都一樣,

好在,記憶模塊(MEM)是相對(duì)獨(dú)立的。

“記憶模塊是一個(gè)必備的技能。

所以只不過(guò)是去年這個(gè)節(jié)點(diǎn)上,

我們認(rèn)為記憶這件事兒在具身上也可以弄了,

不像原來(lái)那樣那么虛了?!?/p>

誰(shuí)不想要記憶模塊呢,

我也想要。

所以,有了記憶模塊有啥好?

以前的記憶技術(shù)要么只記細(xì)節(jié)記不住流程,

要么只記流程沒(méi)細(xì)節(jié),

記憶模塊(MEM)直接全搞定,

還解決了兩個(gè)大問(wèn)題:

第一,不卡殼。

視頻編碼器優(yōu)化了速度,

哪怕處理多攝像頭畫(huà)面,

反應(yīng)延遲也低。

第二,不翻車(chē)。

多源數(shù)據(jù)訓(xùn)練避免了“記混動(dòng)作”,

加了記憶還不影響操作精度,

以前加記憶會(huì)變慢的毛病徹底根治。

說(shuō)實(shí)話(huà),這都是長(zhǎng)期困擾業(yè)界的難題。

似乎人人都在“記憶”上下功夫,

兩個(gè)月前,開(kāi)源團(tuán)隊(duì)Deepseek,

也推出了人家的記憶模塊(Engram)。

市面上的知名團(tuán)隊(duì)都在下“記憶力”的功夫。

看上去,“記住”將是智能的下一個(gè)拐點(diǎn)。

從學(xué)術(shù)到產(chǎn)業(yè),

圍繞AI記憶能力的研究正在迅速積聚。

具身智能也沒(méi)落下。

中科紫東太初具身智能部門(mén)負(fù)責(zé)人,

劉榮博士告訴我:

“大家緊盯著VLA狂卷,

因?yàn)閂LA本身的難點(diǎn)實(shí)在也很多。”

具身智能常用的模型類(lèi)型就是,

視覺(jué)-語(yǔ)言-動(dòng)作一體化,簡(jiǎn)稱(chēng)VLA;

俗稱(chēng)技術(shù)路線。

這個(gè)類(lèi)型的模型,

核心概念已經(jīng)清晰,

但方法、優(yōu)化、跨任務(wù)能力仍在優(yōu)化。

我的觀點(diǎn)是,該技術(shù)(模型)處于快速迭代階段,

其實(shí)目前這個(gè)架構(gòu)不錯(cuò),

紅利還沒(méi)有吃完。

所以,大家都在這條道路上狂奔。

當(dāng)然,還是得和行業(yè)一線專(zhuān)家聊一下。

中科紫東太初董事長(zhǎng)王金橋,

他給了我更本質(zhì)的理解:

“這個(gè)架構(gòu)只是科研人員,

沿襲著大模型大力出奇跡的思路,

慣性探索,技術(shù)路線遠(yuǎn)沒(méi)有定型?!?/p>

而中科紫東太初具身智能部門(mén)負(fù)責(zé)人,

劉榮博士告訴我:

“實(shí)現(xiàn)方法、跨本體跨任務(wù)能力仍要優(yōu)化。”

我又和中科視語(yǔ)CEO趙朝陽(yáng)博士,

聊了如何兼顧研發(fā)和工程實(shí)戰(zhàn)的打法:

一種思路,要么模型(VLA),

直接輸出機(jī)器人行動(dòng),

模型把“看到的東西,

得到的指令”和“該怎么動(dòng)”,

結(jié)合在一起思考+行動(dòng),

視覺(jué)模塊,讓它知道所處環(huán)境長(zhǎng)什么樣,

語(yǔ)言模塊,讓它理解任務(wù)目標(biāo),

動(dòng)作模塊則把理解變成行為。

另一種思路,也是參考行業(yè)標(biāo)桿,

FigureAI的路線。

要么用VLM+VLA,

追求極致工程化,

VLM模型協(xié)調(diào)指揮,決策判斷,

VLA模型負(fù)責(zé)單步動(dòng)作執(zhí)行,

如,拉開(kāi)冰箱門(mén)是一個(gè)單步技術(shù)點(diǎn),;

關(guān)上則可能是另一個(gè)。

而打掃客廳衛(wèi)生,就涉及到客廳多大,

窗戶(hù)多高,幾件家具之類(lèi);

打掃客廳衛(wèi)生,需要先擦玻璃、擦桌子,

再掃地,最后拖地。

沒(méi)做過(guò)保潔的人可能壓根不知道,

地,從來(lái)都是留到最后拖的。

沒(méi)搞過(guò)科研學(xué)術(shù)的人可能壓根不知道,

小環(huán)節(jié)小動(dòng)作,都是“多個(gè)子任務(wù)”。

“兩個(gè)模型各負(fù)其責(zé),

工程上也好調(diào)整?!眲s博士如是說(shuō)。

美國(guó)舊金山PI機(jī)器人團(tuán)隊(duì)的出發(fā)點(diǎn),

是想在長(zhǎng)程任務(wù)上做得好。

阻礙機(jī)器人做一系列任務(wù)的核心障礙,

是記憶。

何時(shí)記?。?/p>

記住什么?

如何記?。?/p>

接著,用這些記憶去指導(dǎo),

后面行為與策略規(guī)劃。

簡(jiǎn)單地把機(jī)器人看見(jiàn)的(所有視覺(jué)幀),

填進(jìn)模型的上下文窗口既不現(xiàn)實(shí),

機(jī)器人會(huì)誤把無(wú)關(guān)過(guò)去行為,

當(dāng)成當(dāng)前決策依據(jù)。

比如,機(jī)器人試圖拿起一根小筷子。

如果沒(méi)有記憶功能,

機(jī)器人往往會(huì)反復(fù)以同樣的方式失敗。

因?yàn)樗挥浀弥暗膰L試,

所以只會(huì)重復(fù)相同的行為。

配上BGM,

估計(jì)就成了一刀不剪的B站鬼畜視頻。

而有了記憶功能,

第一次失敗后,

會(huì)設(shè)法成功拿起筷子。

于是,他們團(tuán)隊(duì)為具身智能設(shè)計(jì)的記憶架構(gòu),

就分為兩層。

第一層是短期記憶,

它記錄當(dāng)下的視覺(jué)信息,

保持機(jī)器人對(duì)環(huán)境的持續(xù)感知。

第二層是長(zhǎng)期記憶,

它用文字形式,

保存經(jīng)驗(yàn)和規(guī)則,

讓機(jī)器人能夠跨越較長(zhǎng)時(shí)間,

保持任務(wù)狀態(tài),

按需調(diào)整。

這里有點(diǎn)太技術(shù)了,

按中科視語(yǔ)CEO趙朝陽(yáng)博士的說(shuō)法,

從科研直覺(jué)去理解,

人類(lèi)好久之前的記憶,

會(huì)被總結(jié)成經(jīng)驗(yàn),

——一朝被蛇咬,十年怕井繩;

人類(lèi)近期(短期)記憶,

更具體,更生動(dòng),更多細(xì)節(jié),

非洲大草原上,

沉睡中的母獅,

被黑曼巴毒蛇咬了一口下巴,

獅頭立刻腫成表情包。

學(xué)術(shù)說(shuō)法是:

短期使用細(xì)節(jié)信息支持即時(shí)行為,

長(zhǎng)期用抽象語(yǔ)義保持任務(wù)語(yǔ)境和目標(biāo)邏輯。

趙朝陽(yáng)博士也聊到:

“記憶分層能設(shè)計(jì)得更細(xì)致,

長(zhǎng)短,長(zhǎng)中短,超長(zhǎng)期記憶,等等。

甚至有些永遠(yuǎn)不能被遺忘,比如安全底線?!?/p>

看來(lái)以后都可以這么玩了:

大大大記憶,小小小記憶,

久而久之,研發(fā)同學(xué)說(shuō)話(huà)都結(jié)巴了,

這絕對(duì)是工傷。

細(xì)想起來(lái),這倒是和很多年前,

阿西莫夫機(jī)器人三大定律遙相呼應(yīng):

機(jī)器人不會(huì)傷害人類(lèi)。

記憶本身是個(gè)很宏大的主題,

記憶和現(xiàn)有系統(tǒng)未來(lái)會(huì)是什么形態(tài)?

記憶不只是存下什么,

而是進(jìn)化的底層動(dòng)力:

1.整體目標(biāo)是什么

2.需要先做什么再做什么

3.現(xiàn)在做到哪一步了

4.這一步怎么做

5.下一步該做什么

具身智能目前在這個(gè)大趨勢(shì)上,

要做出來(lái)真正有記憶的機(jī)器人,

如何在復(fù)雜、長(zhǎng)期任務(wù)中持續(xù)成長(zhǎng)和自適應(yīng)。

具身智能只是會(huì)感知、會(huì)執(zhí)行,不夠。

而是會(huì)記住、會(huì)推理,

會(huì)運(yùn)用過(guò)去的經(jīng)驗(yàn)來(lái)塑造未來(lái)的策略。

具身智能這么熱,還有一個(gè)原因,

中科紫東太初董事長(zhǎng)王金橋

是這么說(shuō)的:

“有太多事情可以做,

或者說(shuō),根本做不過(guò)來(lái),

原因是走得最快的是大語(yǔ)言模型,

那么大語(yǔ)言模型踩過(guò)的坑,

一定指導(dǎo)多模態(tài)大模型。

多模態(tài)模型踩過(guò)的坑,

一定指導(dǎo)具身智能大模型?!?/p>

One More thing

下內(nèi)容包含大量科研黑話(huà)和學(xué)術(shù)暴擊,

看不懂不丟人,能看完的都是狠人,

建議非戰(zhàn)斗人員提前服用冰美式。

為什么不用Transformer-XL自回歸?

答案:不用的原因有三個(gè):

第一,必須逐步生成,每步依賴(lài)前一步輸出,

不支持并行推理,效率低。

第二,視覺(jué)幀或連續(xù)動(dòng)作序列很長(zhǎng)時(shí)處理長(zhǎng)序列會(huì)越來(lái)越慢。

第三,缺乏直接視覺(jué)結(jié)構(gòu)建模能力。

為什么PI機(jī)器人的記憶模塊可插拔?

這個(gè)問(wèn)題,趙朝陽(yáng)博士給我好好講了講。

模型π0.6和π0.6*一起發(fā)布的,

加入真機(jī)強(qiáng)化學(xué)習(xí),

這將會(huì)是未來(lái)一段時(shí)間VLA的主流打法。

上一種利器尚且不夠,

再把記憶模塊也加持上。

而以前,

還在用Transformer-XL做自回歸的,

現(xiàn)在都不用了。

MEM設(shè)計(jì)成可插拔不可謂不巧妙,

雙重否定表達(dá)作者非??隙ā?/p>

MEM模型用了谷歌的Gemma3(4B),

這是在π0.5架構(gòu)基礎(chǔ)上的升級(jí)版本,

π0.5使用的是Gemma2.6。

MEM的可插拔特性主要體現(xiàn)在記憶增強(qiáng)模塊上,

分為短期記憶和長(zhǎng)期記憶兩部分。

在短期記憶方面,

模型對(duì)ViT模塊進(jìn)行了優(yōu)化,

使其能夠處理更多歷史觀察幀,

從而提升視覺(jué)信息的吞吐量。

具體來(lái)說(shuō),優(yōu)化主要集中在時(shí)間注意力和空間注意力結(jié)構(gòu)上,

因?yàn)镸EM很新,廠商尚未開(kāi)源,也可以理解。

長(zhǎng)期記憶部分,就更重要了,

甚至可以說(shuō)是最重要的“彈藥”,

那就是數(shù)據(jù)上下功夫。

用大語(yǔ)言模型生成訓(xùn)練數(shù)據(jù)的方式來(lái)增強(qiáng)。

先總結(jié)(抽象在數(shù)據(jù)里),再讓模型學(xué)習(xí)。

Data teaching and machine learning.

模型會(huì)生成類(lèi)似鏈?zhǔn)酵评淼恼涂偨Y(jié)數(shù)據(jù),

造數(shù)據(jù)優(yōu)化長(zhǎng)期記憶,到底怎么做的呢?

我們認(rèn)為:關(guān)鍵在于,

造一個(gè)帶摘要+總結(jié)的樣本數(shù)據(jù),

還要跟他原本樣本的視頻幀情節(jié)時(shí)間步驟對(duì)應(yīng)上

最后,再用這些數(shù)據(jù)訓(xùn)練主干網(wǎng)絡(luò),

(視覺(jué)-語(yǔ)言模型,Gemma),

這樣,長(zhǎng)期記憶不僅能記錄下事件,

還抽象經(jīng)驗(yàn),用于后續(xù)推理。

我感慨整個(gè)設(shè)計(jì)很巧妙,

保證了短期記憶專(zhuān)注于即時(shí)操作信息,

而長(zhǎng)期記憶提供跨任務(wù)的連續(xù)上下文支持。

陶大程是大曉機(jī)器人首席科學(xué)家。目前,他任職于新加坡南洋理工大學(xué),擔(dān)任杰出大學(xué)教授。同時(shí),澳大利亞科學(xué)院院士,歐洲科學(xué)院外籍院士,當(dāng)選IEEE、ACM、AAAS等多個(gè)國(guó)際權(quán)威學(xué)會(huì)會(huì)士。長(zhǎng)期聚焦于將統(tǒng)計(jì)學(xué)和數(shù)學(xué)方法引入人工智能,在表征學(xué)習(xí)、計(jì)算機(jī)視覺(jué)與深度學(xué)習(xí)等方向具有奠基性貢獻(xiàn)。

問(wèn)題一:記憶是個(gè)宏大命題,

以記憶模塊對(duì)現(xiàn)有具身系統(tǒng)的影響來(lái)看,

以您的見(jiàn)識(shí),

未來(lái)會(huì)是個(gè)啥形態(tài)呢?

陶大程教授回答:未來(lái)的記憶,不會(huì)只是一個(gè)“外掛模塊”,而會(huì)成為具身系統(tǒng)的時(shí)間操作系統(tǒng)。因?yàn)锳CE-Brain-0其實(shí)告訴我們,具身統(tǒng)一的難點(diǎn),不在于單個(gè)技能,而在于如何把不同域、不同階段、不同粒度的知識(shí)組織起來(lái)并長(zhǎng)期保留下來(lái);它用spatialscaffold解決的是“跨embodiment的共享結(jié)構(gòu)”問(wèn)題。與之對(duì)稱(chēng),記憶解決的其實(shí)是“跨時(shí)間的共享結(jié)構(gòu)”問(wèn)題。一個(gè)解決“不同機(jī)器人/不同場(chǎng)景之間怎么統(tǒng)一”,一個(gè)解決“同一個(gè)機(jī)器人在不同時(shí)間怎么連續(xù)”。所以未來(lái)真正強(qiáng)的具身系統(tǒng),一定不是單純的VLA,而是空間骨架+時(shí)間記憶的耦合系統(tǒng)。

因此,未來(lái)具身里的記憶形態(tài),可能會(huì)有五層:

第一層是感知工作記憶。這層記最近幾秒到幾十秒的視覺(jué)、觸覺(jué)、位姿和交互狀態(tài),用來(lái)處理遮擋、局部失誤、抓取重試、視野之外的短時(shí)補(bǔ)償。

第二層是情節(jié)記憶。它記錄“剛剛發(fā)生了什么、哪一步成功了、哪一步失敗了、失敗后換過(guò)什么策略”,服務(wù)分鐘級(jí)任務(wù)。

第三層是語(yǔ)義/程序記憶。它不是記細(xì)節(jié)畫(huà)面,而是記“我現(xiàn)在做到哪一步、這個(gè)任務(wù)的標(biāo)準(zhǔn)順序是什么、這個(gè)對(duì)象通常應(yīng)該如何處理”。

第四層是空間記憶。這是ACE-Brain-0給你的重要啟發(fā):未來(lái)記憶不能只是文本摘要,還必須帶有空間scaffold,也就是物體位置、相對(duì)關(guān)系、可達(dá)性、場(chǎng)景拓?fù)洹?/p>

第五層是反事實(shí)記憶,也就是可執(zhí)行的世界表征:不是只記“過(guò)去如何”,還要能內(nèi)部模擬“未來(lái)可能如何”。這是worldmodel真正進(jìn)入具身主干之后,記憶會(huì)新增的一層。

第六層是不可遺忘記憶。未來(lái)機(jī)器人一定會(huì)有一部分memory不是為了提升任務(wù)成功率,而是為了固化安全邊界、人體禁區(qū)、設(shè)備極限、規(guī)范流程。

未來(lái)的具身記憶,不是更大的contextwindow,而是“分層的、空間化的、可調(diào)用的、可修訂的、可執(zhí)行的MemoryOS”。

問(wèn)題二:具身借鑒LLM經(jīng)驗(yàn),

借鑒VLM經(jīng)驗(yàn)是必然的,

本質(zhì)該怎么理解?

陶大程教授回答:具身借鑒LLM/VLM,不是在借一個(gè)模型外形,而是在借一整套“如何從海量異構(gòu)數(shù)據(jù)中提煉共享先驗(yàn)、再把共享先驗(yàn)遷移到具體任務(wù)”的方法論。

第一層本質(zhì),是抽象壓縮能力;

第二層本質(zhì),是跨模態(tài)對(duì)齊能力;

第三層本質(zhì),是空間共享能力

(ACE-Brain-0:sharedscaffold);

第四層本質(zhì),是自舉改進(jìn)能力

(self-evolutionlearning,

為worldmodel提供了機(jī)制性側(cè)證);

第五層本質(zhì),是有組織的訓(xùn)練

(ACE-Brain-0)。

第三層:ACE-Brain-0給出了自動(dòng)駕駛、無(wú)人機(jī)、機(jī)器人操作雖然形態(tài)不同、動(dòng)作空間不同,但都依賴(lài)3D空間理解、物體布局建模、幾何關(guān)系推理和空間后果預(yù)測(cè)。

第四層:ACE-Brain-0其實(shí)也在回答,

“為什么不能所有東西一鍋燉”。

混合jointtraining會(huì)帶來(lái)長(zhǎng)尾分布、

梯度干擾、領(lǐng)域稀釋?zhuān)?/p>

順序微調(diào)又會(huì)造成災(zāi)難性遺忘。所以需要Specialize-Reconcile:

先建專(zhuān)業(yè)能力,最后再融合。

問(wèn)題三:您的論文中曾強(qiáng)調(diào),

“通用具身智能要求在異構(gòu)具身

(例如自動(dòng)駕駛、機(jī)器人和無(wú)人機(jī)),

之間具備強(qiáng)大的泛化能力?!?/p>

具身作為前沿技術(shù)技術(shù),

您是如何理解目前具身產(chǎn)業(yè)的?

陶大程教授回答:

第一,不能把具身產(chǎn)業(yè)只理解成,

“人形機(jī)器人產(chǎn)業(yè)”。

第二,產(chǎn)業(yè)真正的壁壘不是模型本身,

而是“經(jīng)驗(yàn)回流閉環(huán)”。

產(chǎn)業(yè)中的記憶,不只是模型內(nèi)部記憶,

更是企業(yè)級(jí)經(jīng)驗(yàn)記憶。

第三,產(chǎn)業(yè)落地不是單靠端到端autonomy,

而是“自動(dòng)化+人類(lèi)兜底+再學(xué)習(xí)”的混合系統(tǒng)。

第四,世界模型(World Model),

將成為產(chǎn)業(yè)主戰(zhàn)場(chǎng),

支撐Physical AI的規(guī)?;?xùn)練。

未來(lái)Physical AI的真正基礎(chǔ)設(shè)施,

會(huì)包括一個(gè)可擴(kuò)展、可校準(zhǔn)、可評(píng)測(cè)、可生成數(shù)據(jù)的worldmodel。

第五,數(shù)據(jù)供給方式本身,就是產(chǎn)業(yè)路線分水嶺。

FYI,請(qǐng)自?。?/p>

π?

論文標(biāo)題:《π?: A Vision-Language-Action Flow Model for General Robot Control》

論文地址:https://arxiv.org/pdf/2410.24164

π0.5

論文標(biāo)題:《π0.5: a Vision-Language-Action Model with Open-World Generalization》

論文地址:https://arxiv.org/pdf/2504.16054

π*?.?

論文標(biāo)題:《π*(0.6): a VLA That Learns From Experience》

論文地址:https://arxiv.org/pdf/2511.14759v2

Reference:

1. Ziyang Gong, Zehang Luo, Anke Tang, et al.: ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments. arXiv:2603.03198

2. Shi Fu, Yingjie Wang, Yuzhu Chen, Xinmei Tian, Dacheng Tao: A Theoretical Perspective: How to Prevent Model Collapse in Self-consuming Training Loops. ICLR 2025

    本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。

            查看更多

            掃碼下載澎湃新聞客戶(hù)端

            滬ICP備14003370號(hào)

            滬公網(wǎng)安備31010602000299號(hào)

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116

            ? 2014-2026 上海東方報(bào)業(yè)有限公司