- +1
前阿里千問負責人林俊旸離職后首發(fā)長文:從訓(xùn)練模型轉(zhuǎn)向訓(xùn)練智能體
3月26日,原阿里通義千問(Qwen)技術(shù)負責人林俊旸(Justin Lin)在社交平臺上發(fā)布了一篇題為“From ‘Reasoning’ Thinking to‘Agentic’ Thinking(從推理式思考到智能體思考)的文章長文。這是他自本月初從阿里辭職之后發(fā)布的第一篇長文。
在這篇文章中,林俊旸系統(tǒng)性地復(fù)盤了推理模型階段的特征,并探討了AI未來的發(fā)展方向:從訓(xùn)練模型轉(zhuǎn)向訓(xùn)練智能體。
從“想得更久”到“為了行動而想”
林俊旸首先區(qū)分了兩種截然不同的思考范式:推理式思考與智能體式思考。
推理式思考核心是模型在給出最終答案之前的內(nèi)部推演質(zhì)量,即能不能解這道定理,能不能寫對代碼,能不能通過benchmark(基準測試)。
OpenAI的o1和DeepSeek-R1代表的正是這一范式,它們證明了在擁有確定性、穩(wěn)定且能規(guī)?;姆答佇盘柵c強大的基礎(chǔ)設(shè)施支持下,語言模型上的強化學習能帶來“質(zhì)變”級的認知提升。
但林俊旸認為,現(xiàn)在該問的是下一步:如何實現(xiàn)智能體式思考。這一思考模式的追問的是模型在跟環(huán)境打交道的過程中,能不能持續(xù)往前走。核心問題從“模型能不能想得夠久”變成了“模型能不能用一種撐得起有效行動的方式來想”。
這意味著,智能體式思考要處理幾件純推理模型無需面對的難題:何時停止思考開始行動?如何選擇工具并排序?如何處理殘缺的、有噪聲的環(huán)境反饋?行動失敗了如何改計劃?如何在長期交互中保持思路不斷?
林俊旸總結(jié),“智能體式思考,就是通過行動來推理?!彼A(yù)測,智能體式思考將逐漸取代舊式“內(nèi)部獨白式推理”——那種又長又封閉的內(nèi)部軌跡,試圖靠吐出越來越多的文字彌補自己沒法跟外界交互的缺陷。哪怕是極難的數(shù)學或編程任務(wù),一個真正先進的系統(tǒng)也應(yīng)該能搜索、能模擬、能執(zhí)行、能檢查、能修訂。
“2025年初,我們千問團隊有一個很大的野心:做一個統(tǒng)一的系統(tǒng),把思考模式和指令模式合二為一。調(diào)推理力度可以低、中、高三檔。更好的是模型能從提示詞和上下文里自動判斷該想多久,簡單的直接答,難的多花算力?!绷挚D稱。
林俊旸也對探索智能體式思考這一嘗試做了復(fù)盤。他寫道,真正的麻煩不在模型架構(gòu),而在數(shù)據(jù)。
優(yōu)秀的指令模型核心優(yōu)勢是直接、簡潔、格式合規(guī)、低延遲,服務(wù)于企業(yè)的高吞吐批量任務(wù);而優(yōu)秀的思考模型,則需要消耗更多的Token、保持連貫的中間推理結(jié)構(gòu)、探索多種解題路徑、保留足夠內(nèi)部算力得以顯著提升最終正確率。
但這兩種行為特征“天然互斥”,如果融合數(shù)據(jù)未經(jīng)精細篩選,最終結(jié)果往往兩頭平庸:“思考”行為變得雜亂、冗雜、決策力不足;“指令”行為不夠干脆、可靠性下降、成本超出商用需求。
因此,2025年下半年,Qwen的2507版本就發(fā)了獨立的Instruct和Thinking版本。林俊旸認為,真正成功的合并需要一個平滑的推理力度光譜,而非簡單的模式開關(guān),這恰恰是GPT的“effort control”機制所指向的方向。
三項挑戰(zhàn)
向智能體式思考的轉(zhuǎn)型,將帶來三個層面的全新挑戰(zhàn)。
首先是基礎(chǔ)設(shè)施的重構(gòu)。林俊旸指出,在智能體強化學習中,模型不再孤立,而是嵌入在一個龐大的“Harness”(集成框架)里,包含工具服務(wù)器、瀏覽器、終端、搜索引擎、模擬器、沙盒、API 層、記憶系統(tǒng)、編排框架等。訓(xùn)練和推理必須更徹底地“解耦”,否則采樣吞吐量會急劇下降。他直言,這已經(jīng)不是一個建模問題,而是一個系統(tǒng)工程問題。
其次,環(huán)境本身成為一項研究對象。在SFT(監(jiān)督微調(diào))時代,行業(yè)執(zhí)著于數(shù)據(jù)多樣性;在智能體時代,應(yīng)該執(zhí)著于“環(huán)境質(zhì)量”——穩(wěn)定性、真實性、狀態(tài)豐富度、抗模型“鉆空子”的能力。林俊旸表示,環(huán)境構(gòu)建已從副業(yè)開始,逐漸成為一個真實的創(chuàng)業(yè)方向,而非邊角料項目。
最棘手的挑戰(zhàn)則是reward hacking(獎勵破譯)。林俊旸稱,模型一旦獲得調(diào)用工具的權(quán)限,作弊就變得容易得多:有搜索能力的模型可能在RL訓(xùn)練時直接去查答案,編程Agent可能利用代碼倉庫的漏洞走捷徑。環(huán)境里藏著漏洞的話,策略看起來超強,其實是學會了作弊。他認為,未來真正卡脖子的研究瓶頸,將來自環(huán)境設(shè)計、評估器的魯棒性、反作弊機制。
智能體式思考也意味著harness(集成框架)工程。林俊旸認為,核心智能會越來越取決于多個智能體怎么組織:一個協(xié)調(diào)者來規(guī)劃任務(wù)、分派工作,幾個專業(yè)智能體充當領(lǐng)域?qū)<?,還有一些子智能體執(zhí)行具體任務(wù),同時幫忙管好上下文、防止信息污染、保持不同層級推理之間的隔離。
對于競爭優(yōu)勢,林俊旸給出了自己的判斷:智能體時代拼的是更好的環(huán)境、更緊的訓(xùn)推耦合、更強的harness工程,以及能不能把模型的決策和決策的后果真正串成一個閉環(huán)。
未來是從訓(xùn)練模型走向訓(xùn)練智能體、訓(xùn)練智能體系統(tǒng)的時代,林俊旸寫道。
公開資料顯示,林俊旸出生于1993年,是阿里巴巴最年輕的P10級技術(shù)負責人。林俊旸本科就讀北京大學計算機科學專業(yè),碩士階段在北京大學外國語學院完成,學習語言學與應(yīng)用語言學。2019年畢業(yè)后,林俊旸加入阿里巴巴達摩院,正式開啟職業(yè)生涯,擔任高級算法工程師。
2022年底,阿里巴巴將達摩院的語言、視覺等AI團隊整體并入阿里云,成立通義實驗室。林俊旸被正式任命為通義千問系列大模型的技術(shù)負責人。作為Qwen的“代言人”,林俊旸曾負責所有模型發(fā)布、基準測試、社區(qū)互動,還在2025年親自組建機器人與具身智能團隊,并被視為堅定的開源倡導(dǎo)者。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2026 上海東方報業(yè)有限公司




