中文字幕国产91无码|AV成人手机在线|av成人先锋在线|911无码在线国产人人操|91蜜桃视频精品免费在线|极品美女A∨片在线看|日韩在线成人视频日韩|电影三级成人黄免费影片|超碰97国产在线|国产成人精品色情免费视频

  • +1

前阿里千問負(fù)責(zé)人林俊旸離職后首發(fā)長文:從訓(xùn)練模型轉(zhuǎn)向訓(xùn)練智能體

澎湃新聞記者 喻琰
2026-03-27 14:06
來源:澎湃新聞
? 未來2% >
聽全文
字號

3月26日,原阿里通義千問(Qwen)技術(shù)負(fù)責(zé)人林俊旸(Justin Lin)在社交平臺上發(fā)布了一篇題為“From ‘Reasoning’ Thinking to‘Agentic’ Thinking(從推理式思考到智能體思考)的文章長文。這是他自本月初從阿里辭職之后發(fā)布的第一篇長文。

在這篇文章中,林俊旸系統(tǒng)性地復(fù)盤了推理模型階段的特征,并探討了AI未來的發(fā)展方向:從訓(xùn)練模型轉(zhuǎn)向訓(xùn)練智能體。

從“想得更久”到“為了行動而想”

林俊旸首先區(qū)分了兩種截然不同的思考范式:推理式思考與智能體式思考。

推理式思考核心是模型在給出最終答案之前的內(nèi)部推演質(zhì)量,即能不能解這道定理,能不能寫對代碼,能不能通過benchmark(基準(zhǔn)測試)。

OpenAI的o1和DeepSeek-R1代表的正是這一范式,它們證明了在擁有確定性、穩(wěn)定且能規(guī)?;姆答佇盘柵c強(qiáng)大的基礎(chǔ)設(shè)施支持下,語言模型上的強(qiáng)化學(xué)習(xí)能帶來“質(zhì)變”級的認(rèn)知提升。

但林俊旸認(rèn)為,現(xiàn)在該問的是下一步:如何實(shí)現(xiàn)智能體式思考。這一思考模式的追問的是模型在跟環(huán)境打交道的過程中,能不能持續(xù)往前走。核心問題從“模型能不能想得夠久”變成了“模型能不能用一種撐得起有效行動的方式來想”。

這意味著,智能體式思考要處理幾件純推理模型無需面對的難題:何時(shí)停止思考開始行動?如何選擇工具并排序?如何處理殘缺的、有噪聲的環(huán)境反饋?行動失敗了如何改計(jì)劃?如何在長期交互中保持思路不斷?

林俊旸總結(jié),“智能體式思考,就是通過行動來推理。”他預(yù)測,智能體式思考將逐漸取代舊式“內(nèi)部獨(dú)白式推理”——那種又長又封閉的內(nèi)部軌跡,試圖靠吐出越來越多的文字彌補(bǔ)自己沒法跟外界交互的缺陷。哪怕是極難的數(shù)學(xué)或編程任務(wù),一個(gè)真正先進(jìn)的系統(tǒng)也應(yīng)該能搜索、能模擬、能執(zhí)行、能檢查、能修訂。

“2025年初,我們千問團(tuán)隊(duì)有一個(gè)很大的野心:做一個(gè)統(tǒng)一的系統(tǒng),把思考模式和指令模式合二為一。調(diào)推理力度可以低、中、高三檔。更好的是模型能從提示詞和上下文里自動判斷該想多久,簡單的直接答,難的多花算力?!绷挚D稱。

林俊旸也對探索智能體式思考這一嘗試做了復(fù)盤。他寫道,真正的麻煩不在模型架構(gòu),而在數(shù)據(jù)。

優(yōu)秀的指令模型核心優(yōu)勢是直接、簡潔、格式合規(guī)、低延遲,服務(wù)于企業(yè)的高吞吐批量任務(wù);而優(yōu)秀的思考模型,則需要消耗更多的Token、保持連貫的中間推理結(jié)構(gòu)、探索多種解題路徑、保留足夠內(nèi)部算力得以顯著提升最終正確率。

但這兩種行為特征“天然互斥”,如果融合數(shù)據(jù)未經(jīng)精細(xì)篩選,最終結(jié)果往往兩頭平庸:“思考”行為變得雜亂、冗雜、決策力不足;“指令”行為不夠干脆、可靠性下降、成本超出商用需求。

因此,2025年下半年,Qwen的2507版本就發(fā)了獨(dú)立的Instruct和Thinking版本。林俊旸認(rèn)為,真正成功的合并需要一個(gè)平滑的推理力度光譜,而非簡單的模式開關(guān),這恰恰是GPT的“effort control”機(jī)制所指向的方向。

三項(xiàng)挑戰(zhàn)

向智能體式思考的轉(zhuǎn)型,將帶來三個(gè)層面的全新挑戰(zhàn)。

首先是基礎(chǔ)設(shè)施的重構(gòu)。林俊旸指出,在智能體強(qiáng)化學(xué)習(xí)中,模型不再孤立,而是嵌入在一個(gè)龐大的“Harness”(集成框架)里,包含工具服務(wù)器、瀏覽器、終端、搜索引擎、模擬器、沙盒、API 層、記憶系統(tǒng)、編排框架等。訓(xùn)練和推理必須更徹底地“解耦”,否則采樣吞吐量會急劇下降。他直言,這已經(jīng)不是一個(gè)建模問題,而是一個(gè)系統(tǒng)工程問題。

其次,環(huán)境本身成為一項(xiàng)研究對象。在SFT(監(jiān)督微調(diào))時(shí)代,行業(yè)執(zhí)著于數(shù)據(jù)多樣性;在智能體時(shí)代,應(yīng)該執(zhí)著于“環(huán)境質(zhì)量”——穩(wěn)定性、真實(shí)性、狀態(tài)豐富度、抗模型“鉆空子”的能力。林俊旸表示,環(huán)境構(gòu)建已從副業(yè)開始,逐漸成為一個(gè)真實(shí)的創(chuàng)業(yè)方向,而非邊角料項(xiàng)目。

最棘手的挑戰(zhàn)則是reward hacking(獎(jiǎng)勵(lì)破譯)。林俊旸稱,模型一旦獲得調(diào)用工具的權(quán)限,作弊就變得容易得多:有搜索能力的模型可能在RL訓(xùn)練時(shí)直接去查答案,編程Agent可能利用代碼倉庫的漏洞走捷徑。環(huán)境里藏著漏洞的話,策略看起來超強(qiáng),其實(shí)是學(xué)會了作弊。他認(rèn)為,未來真正卡脖子的研究瓶頸,將來自環(huán)境設(shè)計(jì)、評估器的魯棒性、反作弊機(jī)制。

智能體式思考也意味著harness(集成框架)工程。林俊旸認(rèn)為,核心智能會越來越取決于多個(gè)智能體怎么組織:一個(gè)協(xié)調(diào)者來規(guī)劃任務(wù)、分派工作,幾個(gè)專業(yè)智能體充當(dāng)領(lǐng)域?qū)<?,還有一些子智能體執(zhí)行具體任務(wù),同時(shí)幫忙管好上下文、防止信息污染、保持不同層級推理之間的隔離。

對于競爭優(yōu)勢,林俊旸給出了自己的判斷:智能體時(shí)代拼的是更好的環(huán)境、更緊的訓(xùn)推耦合、更強(qiáng)的harness工程,以及能不能把模型的決策和決策的后果真正串成一個(gè)閉環(huán)。

未來是從訓(xùn)練模型走向訓(xùn)練智能體、訓(xùn)練智能體系統(tǒng)的時(shí)代,林俊旸寫道。

公開資料顯示,林俊旸出生于1993年,是阿里巴巴最年輕的P10級技術(shù)負(fù)責(zé)人。林俊旸本科就讀北京大學(xué)計(jì)算機(jī)科學(xué)專業(yè),碩士階段在北京大學(xué)外國語學(xué)院完成,學(xué)習(xí)語言學(xué)與應(yīng)用語言學(xué)。2019年畢業(yè)后,林俊旸加入阿里巴巴達(dá)摩院,正式開啟職業(yè)生涯,擔(dān)任高級算法工程師。

2022年底,阿里巴巴將達(dá)摩院的語言、視覺等AI團(tuán)隊(duì)整體并入阿里云,成立通義實(shí)驗(yàn)室。林俊旸被正式任命為通義千問系列大模型的技術(shù)負(fù)責(zé)人。作為Qwen的“代言人”,林俊旸曾負(fù)責(zé)所有模型發(fā)布、基準(zhǔn)測試、社區(qū)互動,還在2025年親自組建機(jī)器人與具身智能團(tuán)隊(duì),并被視為堅(jiān)定的開源倡導(dǎo)者。

    責(zé)任編輯:宦艷紅
    圖片編輯:沈軻
    校對:丁曉
    澎湃新聞報(bào)料:021-962866
    澎湃新聞,未經(jīng)授權(quán)不得轉(zhuǎn)載
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2026 上海東方報(bào)業(yè)有限公司