中文字幕国产91无码|AV成人手机在线|av成人先锋在线|911无码在线国产人人操|91蜜桃视频精品免费在线|极品美女A∨片在线看|日韩在线成人视频日韩|电影三级成人黄免费影片|超碰97国产在线|国产成人精品色情免费视频

  • +1

北斗專訪|商湯楊帆:AI在物理世界還有很長的路要走

澎湃新聞高級(jí)記者 李佳蔚
2025-08-07 07:02
來源:澎湃新聞
? 浦江頭條 >
字號(hào)

【編者按】

“星漢燦爛,若出其里?!比斯ぶ悄苓~入閃耀時(shí)刻。

4月29日,習(xí)近平總書記來到位于徐匯區(qū)的上海“模速空間”大模型創(chuàng)新生態(tài)社區(qū)調(diào)研。他指出,人工智能技術(shù)加速迭代,正迎來爆發(fā)式發(fā)展,上海要總結(jié)好以大模型產(chǎn)業(yè)生態(tài)體系孵化人工智能產(chǎn)業(yè)等成功經(jīng)驗(yàn),加大探索力度,力爭在人工智能發(fā)展和治理各方面走在前列,產(chǎn)生示范效應(yīng)。

如今,徐匯區(qū)已形成“北斗列陣”+“群星閃耀”的AI生態(tài)布局。其中,“北斗七星”由稀宇科技、商湯科技、階躍星辰、無問芯穹、星紀(jì)魅族、特贊科技和斑馬智行7家標(biāo)桿企業(yè)構(gòu)成。

這些企業(yè)何以成為“北斗”?它們?cè)谌斯ぶ悄茴I(lǐng)域有哪些探索和前瞻性的思考?澎湃新聞推出“北斗專訪”系列報(bào)道,通過深度對(duì)話,解碼標(biāo)桿企業(yè)的AI星辰版圖。

近日,商湯又一次引起外界關(guān)注。在2025年世界人工智能大會(huì)(WAIC)上,商湯不僅發(fā)布了新模型,還開辟了新賽道——具身智能,成為其在AI前沿領(lǐng)域的最新布局。

商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事、大裝置事業(yè)群總裁楊帆在接受澎湃新聞專訪時(shí)表示,無論是商湯2025年完成的“1+X”組織架構(gòu)調(diào)整,還是最近在具身智能、穩(wěn)定幣等賽道的布局,背后的邏輯來源于對(duì)AI產(chǎn)業(yè)兩個(gè)發(fā)展趨勢(shì)的觀察和回應(yīng):

其一,AI正朝著更大規(guī)模、更強(qiáng)泛化能力的方向演進(jìn),遵循尺度定律(Scaling Law),模型能力持續(xù)增強(qiáng),這是技術(shù)層面的長期主線。

其二,AI正加速向細(xì)分行業(yè)滲透、打穿,實(shí)現(xiàn)端到端的深度整合與應(yīng)用落地。AI作為一個(gè)通用工具,用戶長期來看還是為價(jià)值買單的,AI真正要?jiǎng)?chuàng)造價(jià)值,必須跟下游場景形成閉環(huán)和產(chǎn)品。

祝碧晨 設(shè)計(jì)

楊帆說,中國人工智能取得了很大進(jìn)步,但仍面臨商業(yè)邏輯、性價(jià)比邏輯上的挑戰(zhàn),AI企業(yè)需要持續(xù)性的盈利能力。他認(rèn)為,一方面要追求在AI核心技術(shù)上的持續(xù)突破,另一方面也要尋求在不同細(xì)分領(lǐng)域的落地,兩者的關(guān)系如同大樹的樹干和樹枝。

這兩年,雖然AI大模型迭代速度快,但和人們此前想象的并不一樣。“GPT4剛出來時(shí),很多人為之驚嘆,覺得AGI(通用人工智能)很快要實(shí)現(xiàn)了。但實(shí)際情況不是這樣?!睏罘f,人們看到的,是多模態(tài)大模型、AI Agent(智能體)、具身智能以及世界模型等相繼面世。

“80后”的楊帆,本碩畢業(yè)于清華大學(xué)電子工程系,主導(dǎo)建設(shè)了商湯超大型人工智能計(jì)算中心(AIDC)。在他辦公室的書柜上,擺放著家人的照片、孩子的手辦和玩偶。在同事眼里,他是一位性格親和、非常健談的人。他善于讓對(duì)談?wù)叻潘桑矔?huì)不動(dòng)聲色地拋出尖銳的觀點(diǎn)。

“我覺得人形機(jī)器人一定會(huì)進(jìn)入千家萬戶,但它現(xiàn)在仍面臨在真實(shí)世界收集數(shù)據(jù)的難題?!睏罘f,雖然AI在數(shù)字世界已取得很大突破,但在物理世界還有很長的路要走。感知、導(dǎo)航和交互,是具身智能的三個(gè)核心能力,人形機(jī)器人的演進(jìn)最終要讓“身體”和“大腦”實(shí)現(xiàn)閉環(huán)。

楊帆相信,人工智能基礎(chǔ)設(shè)施化是必然趨勢(shì)。過去三次工業(yè)革命,使蒸汽機(jī)、鐵路、電網(wǎng)、互聯(lián)網(wǎng)等成為基礎(chǔ)設(shè)施?,F(xiàn)如今在AI時(shí)代,數(shù)據(jù)、算力等將會(huì)成為新一代基礎(chǔ)設(shè)施的重要組成。任何技術(shù)進(jìn)步帶來的風(fēng)險(xiǎn)都始終存在,但與其擔(dān)心風(fēng)險(xiǎn),他認(rèn)為不如思考能做什么,比如為AI定義規(guī)則、文化和價(jià)值觀。

商湯科技大樓,位于上海徐匯區(qū)。

【對(duì)話楊帆】

澎湃新聞:如今各行各業(yè)都談?wù)揂I大模型,感嘆其發(fā)展速度何其迅猛。作為行內(nèi)人,你怎么判斷當(dāng)前AI產(chǎn)業(yè)的趨勢(shì)?

楊帆:這幾年AI的發(fā)展有兩個(gè)顯著趨勢(shì),一方面是模型能力持續(xù)增強(qiáng),具備更強(qiáng)的泛化與通用智能,AI在技術(shù)上會(huì)持續(xù)追求規(guī)?;?,這是一個(gè)大趨勢(shì)。另一方面,AI正加速向細(xì)分行業(yè)滲透,實(shí)現(xiàn)端到端的深度整合與應(yīng)用落地,包括AI Agent(智能體)也在加快興起。這背后的邏輯是,AI作為一個(gè)通用工具,長期來看用戶還是為價(jià)值買單的,AI真正要?jiǎng)?chuàng)造價(jià)值,就要能跟下游場景形成閉環(huán)、形成產(chǎn)品。

這兩年AI大模型發(fā)展非??欤幸稽c(diǎn)需要注意,它的快和兩年前人們想象的快是不一樣的。GPT4剛出來時(shí),很多人為之驚嘆,覺得馬上AGI(通用人工智能)很快要實(shí)現(xiàn)了。但實(shí)際情況卻不是這樣,我們看到的是多模態(tài)大模型、具身智能、AI Agent以及世界模型等,這些出來了。

澎湃新聞:從大語言模型,到多模態(tài)大模型、具身智能,再到一些細(xì)分領(lǐng)域的垂類模型,大模型的概念似乎越來越寬泛了?

楊帆:事實(shí)上,國內(nèi)語言體系和海外略有不同。2022年OpenAI的GPT3.5出來,它本質(zhì)上是LLM(Large Language Model),即大語言模型。今天我們說的多模態(tài)大模型,智能體,或者世界模型,大家都叫大模型的方向,但其實(shí)和LLM是不同的體系。都叫大模型也不能說錯(cuò),因?yàn)檫@是大模型迭代發(fā)展的長期趨勢(shì)。另外,多模態(tài)信息感知和處理的能力,是AGI的核心要求,也是從語言模型走向AGI的必由之路。從多模態(tài)感知、推理,再到交互,當(dāng)前多模態(tài)智能的演進(jìn),正在進(jìn)一步驅(qū)動(dòng)AI發(fā)展。

澎湃新聞:商湯是做視覺起家,在計(jì)算機(jī)視覺領(lǐng)域積累深厚,這會(huì)讓你們投身多模態(tài)大模型領(lǐng)域有不一樣的視角嗎?今年世界人工智能大會(huì)上,商湯在大模型中引入形象思維,成為國內(nèi)首個(gè)采用圖文交錯(cuò)思維的商業(yè)級(jí)大模型,背后有什么技術(shù)考慮?

楊帆:語言和視覺是典型的兩種模態(tài)。語言、文字是對(duì)自然信息高度壓縮過的一種編碼,它的好處是傳輸效率高,有效信息量大,但同時(shí)也會(huì)造成原始信息損失。而視頻則是另一種模式,它對(duì)物理世界有更豐富和完整的呈現(xiàn),但缺點(diǎn)在于信息的信噪比低,有效信息量小。

人類的日?;顒?dòng),天然涉及對(duì)文本、圖像、視頻、網(wǎng)頁等多模態(tài)信息的處理。現(xiàn)在很多人做多模態(tài)模型,是把圖像、視頻、語音等其他模態(tài)信息翻譯成文本,再灌入模型去思考、處理,然后再將推理后的信息翻譯生成出來,轉(zhuǎn)為圖像、視頻和語音,原因是大語言模型已經(jīng)成熟,這么做是最簡單的。

但在人類的思考中,形象思維和邏輯思維同等重要。所以我們從第一天做多模態(tài)模型,就不希望把信息都翻譯成文本再推理,我們把信息抽象成一個(gè)中間表達(dá),用這個(gè)中間態(tài)去做推理。要知道信息的圖形化表達(dá)比純文本思維鏈更難,雖然難,但這是我們?cè)谧龅氖隆?/p>

澎湃新聞:最近商湯新開了一個(gè)賽道——具身智能。這兩年人形機(jī)器人很火熱,大廠、AI企業(yè)紛紛下場,但具身智能“大腦”的研發(fā)似乎仍是關(guān)鍵。能否談?wù)剬?duì)具身智能賽道的想法?你覺得未來人形機(jī)器人會(huì)進(jìn)入千家萬戶嗎?

楊帆:我們做具身智能,是基于在視覺感知、大裝置、大模型等多種技術(shù)的長期積累,背后的核心引擎是世界模型,它能為機(jī)器人、智能設(shè)備賦予感知、視覺導(dǎo)航及多模態(tài)交互能力。感知、導(dǎo)航和交互,是具身智能的三大核心能力。

普通人可能對(duì)具身智能還不太了解。舉個(gè)例子,多年前AlphaGo已經(jīng)戰(zhàn)勝了人類圍棋冠軍,現(xiàn)在大語言模型也能寫出漂亮的文章。但是,洗碗疊被、拿件東西這類對(duì)人很簡單的事情,機(jī)器人卻做不好。為什么?因?yàn)闄C(jī)器人可以在數(shù)字世界做很多事情,但在物理世界它的能力仍然有限。具身智能要讓機(jī)器人的多模態(tài)數(shù)據(jù)同步,感知、意圖和行動(dòng)一致,讓身體和大腦實(shí)現(xiàn)閉環(huán)。這是很難的,你讓機(jī)器人回辦公室取回遺忘的物品,它不僅要識(shí)別、拿取物品,還要應(yīng)對(duì)復(fù)雜的外界環(huán)境,比如與陌生人交流、防范意外等。

我覺得未來人形機(jī)器人一定會(huì)進(jìn)入千家萬戶。為什么打造人形機(jī)器人?因?yàn)檫^去幾千年來,人類已經(jīng)按照自己的體型、交互方式等,打造了一個(gè)物理世界,包括樓梯、電梯、桌椅、鍋碗瓢盆等所有東西。

一個(gè)機(jī)器人如果只干特定任務(wù),比如做飯或送貨,它不需要一定是人形的,比如酒店的機(jī)器人已經(jīng)很普及,并不是人形的。但是當(dāng)這個(gè)機(jī)器人越來越通用時(shí),具備了通用功能,那么人形機(jī)器人就是最經(jīng)濟(jì)、最方便的形態(tài),這讓它能更好地融入物理世界。

澎湃新聞:智能汽車常被視為初代版的機(jī)器人,那人形機(jī)器人的進(jìn)步也會(huì)像輔助駕駛那么快嗎?

楊帆:人形機(jī)器人面臨的一個(gè)挑戰(zhàn),是很難在真實(shí)世界收集數(shù)據(jù),而它又需要海量數(shù)據(jù)反饋和訓(xùn)練。對(duì)智能汽車來說,輔助駕駛技術(shù)進(jìn)步很快,因?yàn)槟憧梢园才艓装佥v汽車每天上路測(cè)試,通過攝像頭、感應(yīng)器收集真實(shí)世界的數(shù)據(jù),持續(xù)訓(xùn)練和完善它的智能。但你很難安排幾百個(gè)機(jī)器人上街收集數(shù)據(jù)。即使沒有AI,汽車照樣在路上跑,但沒有AI,人形機(jī)器人就不會(huì)上街。人形機(jī)器人是一個(gè)原生的智能設(shè)備,目前它還需要更多真實(shí)世界的訓(xùn)練和反饋才能持續(xù)進(jìn)步。這也是我們現(xiàn)在非常重視世界模型的原因,對(duì)現(xiàn)實(shí)世界環(huán)境進(jìn)行仿真訓(xùn)練。

商湯科技大樓內(nèi)景。

澎湃新聞:在我們的采訪中,輔助駕駛、AI眼鏡、智能座艙等企業(yè)都很重視AI在端側(cè)的部署,端側(cè)部署為什么很重要?

楊帆:AI在端側(cè)的部署,對(duì)很多具體場景下的應(yīng)用是很重要的。在端側(cè)部署AI,打通端到端的能力,意味著數(shù)據(jù)采集、感知、推理、決策、反饋都能在終端設(shè)備上完成,它能夠激活一些大場景,來形成對(duì)自身商業(yè)化的反哺。你會(huì)發(fā)現(xiàn)有很多場景確實(shí)對(duì)網(wǎng)絡(luò)的延遲很敏感。

同時(shí),它也有利于用戶隱私安全和數(shù)據(jù)保護(hù)。隨著數(shù)據(jù)的資產(chǎn)化,個(gè)人數(shù)據(jù)可能成為個(gè)人的重要資產(chǎn)。并且在AI時(shí)代,數(shù)據(jù)會(huì)成為核心生產(chǎn)資料,重要性如同工業(yè)時(shí)代的能源、農(nóng)業(yè)時(shí)代的耕地。因此,在本地保護(hù)用戶數(shù)據(jù)很重要。

澎湃新聞:你說過,隨著產(chǎn)業(yè)格局的演變,人工智能基礎(chǔ)設(shè)施化是必然趨勢(shì)。能否解釋一下?

楊帆:AI作為一個(gè)先進(jìn)生產(chǎn)力,一定會(huì)滲透進(jìn)各行業(yè),這是工業(yè)革命的內(nèi)在邏輯。過去三次工業(yè)革命,電力、信息技術(shù)等都已滲透到了社會(huì)各個(gè)領(lǐng)域。當(dāng)一個(gè)技術(shù)能夠規(guī)?;?、廣泛地改變產(chǎn)業(yè)結(jié)構(gòu)乃至社會(huì)結(jié)構(gòu)的時(shí)候,降低這個(gè)技術(shù)的門檻和成本也會(huì)成為必然,它會(huì)具有規(guī)模效應(yīng)。

第一次工業(yè)革命,讓蒸汽機(jī)、鐵路成為基礎(chǔ)設(shè)施。第二次工業(yè)革命,讓發(fā)電廠、電網(wǎng)成為基礎(chǔ)設(shè)施。第三次工業(yè)革命,讓信息技術(shù)、互聯(lián)網(wǎng)成為基礎(chǔ)設(shè)施。如今,AI時(shí)代也會(huì)有新的基礎(chǔ)設(shè)施,包括算力、數(shù)據(jù)等等,這個(gè)趨勢(shì)很清晰。

澎湃新聞:近期外界關(guān)注商湯組織架構(gòu)的Re-cofound(二次聯(lián)合創(chuàng)業(yè)),您也提到“1+X”戰(zhàn)略,能不能介紹一下最新進(jìn)展?

楊帆:“1+X”中的“1”是指從包括AI Infra(基礎(chǔ)設(shè)施)到大模型的迭代,再到圍繞多模態(tài)大模型技術(shù)的兩個(gè)應(yīng)用方向,一個(gè)是生產(chǎn)力的工具,另外一個(gè)就是下一代的多模態(tài)交互。“1”就像大樹的主干,它本身也會(huì)形成比較大的商業(yè)機(jī)會(huì),但更多還是持續(xù)推動(dòng)整個(gè)AI技術(shù)的迭代和進(jìn)步。

同時(shí),人工智能還要進(jìn)入到具體的行業(yè),去解決具體問題,在某個(gè)行業(yè)或者跨行業(yè)的場景,并在每個(gè)分支形成獨(dú)立的商業(yè)模式,這就是“X”。我們希望讓“1”和“X”更好地結(jié)合,在商業(yè)化探索中有更靈活、更開放、更快速響應(yīng)的能力。

基于這個(gè)戰(zhàn)略,我們有幾個(gè)不同方式:第一是把一些業(yè)務(wù)分拆,比如醫(yī)療、零售等都有典型的垂域,分拆后商湯占一定股份比例,給他們提供技術(shù)能力和價(jià)值。第二類是孵化,比如最近在搞的具身智能。第三類是對(duì)產(chǎn)業(yè)上下游和新行業(yè)的投資。

澎湃新聞:你會(huì)擔(dān)心AI取代人類嗎?如何看待AI的風(fēng)險(xiǎn)?

楊帆:不擔(dān)心。任何技術(shù)進(jìn)步帶來的風(fēng)險(xiǎn)都始終存在,與其擔(dān)心,不如從現(xiàn)實(shí)出發(fā),判斷我們能做什么有意義的事情。比如在AI安全倫理上我們要做很多事情,要和國際社會(huì)、國際組織開展更多合作。隨著越來越多的機(jī)器人出現(xiàn),可以想象它們與物理世界、其他機(jī)器人和人之間產(chǎn)生交互,在交互過程中也在不斷發(fā)展自己的智能。我們需要幫助它定義規(guī)則,除了物理規(guī)則,還有文化、價(jià)值觀和道德準(zhǔn)則等,最終產(chǎn)生人類所需要的智能。

    責(zé)任編輯:徐禎曜
    圖片編輯:施佳慧
    校對(duì):張艷
    澎湃新聞報(bào)料:021-962866
    澎湃新聞,未經(jīng)授權(quán)不得轉(zhuǎn)載
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號(hào)

            滬公網(wǎng)安備31010602000299號(hào)

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2026 上海東方報(bào)業(yè)有限公司