前阿里千問負(fù)責(zé)人林俊旸離職后首發(fā)長文：從訓(xùn)練模型轉(zhuǎn)向訓(xùn)練智能體

澎湃新聞記者喻琰

2026-03-27 14:06

來源：澎湃新聞

聽全文

3月26日，原阿里通義千問（Qwen）技術(shù)負(fù)責(zé)人林俊旸（Justin Lin）在社交平臺上發(fā)布了一篇題為“From ‘Reasoning’ Thinking to‘Agentic’ Thinking（從推理式思考到智能體思考）的文章長文。這是他自本月初從阿里辭職之后發(fā)布的第一篇長文。

在這篇文章中，林俊旸系統(tǒng)性地復(fù)盤了推理模型階段的特征，并探討了AI未來的發(fā)展方向：從訓(xùn)練模型轉(zhuǎn)向訓(xùn)練智能體。

從“想得更久”到“為了行動而想”

林俊旸首先區(qū)分了兩種截然不同的思考范式：推理式思考與智能體式思考。

推理式思考核心是模型在給出最終答案之前的內(nèi)部推演質(zhì)量，即能不能解這道定理，能不能寫對代碼，能不能通過benchmark（基準(zhǔn)測試）。

OpenAI的o1和DeepSeek-R1代表的正是這一范式，它們證明了在擁有確定性、穩(wěn)定且能規(guī)?；姆答佇盘柵c強(qiáng)大的基礎(chǔ)設(shè)施支持下，語言模型上的強(qiáng)化學(xué)習(xí)能帶來“質(zhì)變”級的認(rèn)知提升。

但林俊旸認(rèn)為，現(xiàn)在該問的是下一步：如何實(shí)現(xiàn)智能體式思考。這一思考模式的追問的是模型在跟環(huán)境打交道的過程中，能不能持續(xù)往前走。核心問題從“模型能不能想得夠久”變成了“模型能不能用一種撐得起有效行動的方式來想”。

這意味著，智能體式思考要處理幾件純推理模型無需面對的難題：何時(shí)停止思考開始行動？如何選擇工具并排序？如何處理殘缺的、有噪聲的環(huán)境反饋？行動失敗了如何改計(jì)劃？如何在長期交互中保持思路不斷？

林俊旸總結(jié)，“智能體式思考，就是通過行動來推理。”他預(yù)測，智能體式思考將逐漸取代舊式“內(nèi)部獨(dú)白式推理”——那種又長又封閉的內(nèi)部軌跡，試圖靠吐出越來越多的文字彌補(bǔ)自己沒法跟外界交互的缺陷。哪怕是極難的數(shù)學(xué)或編程任務(wù)，一個(gè)真正先進(jìn)的系統(tǒng)也應(yīng)該能搜索、能模擬、能執(zhí)行、能檢查、能修訂。

“2025年初，我們千問團(tuán)隊(duì)有一個(gè)很大的野心：做一個(gè)統(tǒng)一的系統(tǒng)，把思考模式和指令模式合二為一。調(diào)推理力度可以低、中、高三檔。更好的是模型能從提示詞和上下文里自動判斷該想多久，簡單的直接答，難的多花算力?！绷挚D稱。

林俊旸也對探索智能體式思考這一嘗試做了復(fù)盤。他寫道，真正的麻煩不在模型架構(gòu)，而在數(shù)據(jù)。

優(yōu)秀的指令模型核心優(yōu)勢是直接、簡潔、格式合規(guī)、低延遲，服務(wù)于企業(yè)的高吞吐批量任務(wù)；而優(yōu)秀的思考模型，則需要消耗更多的Token、保持連貫的中間推理結(jié)構(gòu)、探索多種解題路徑、保留足夠內(nèi)部算力得以顯著提升最終正確率。

但這兩種行為特征“天然互斥”，如果融合數(shù)據(jù)未經(jīng)精細(xì)篩選，最終結(jié)果往往兩頭平庸：“思考”行為變得雜亂、冗雜、決策力不足；“指令”行為不夠干脆、可靠性下降、成本超出商用需求。

因此，2025年下半年，Qwen的2507版本就發(fā)了獨(dú)立的Instruct和Thinking版本。林俊旸認(rèn)為，真正成功的合并需要一個(gè)平滑的推理力度光譜，而非簡單的模式開關(guān)，這恰恰是GPT的“effort control”機(jī)制所指向的方向。

三項(xiàng)挑戰(zhàn)

向智能體式思考的轉(zhuǎn)型，將帶來三個(gè)層面的全新挑戰(zhàn)。

首先是基礎(chǔ)設(shè)施的重構(gòu)。林俊旸指出，在智能體強(qiáng)化學(xué)習(xí)中，模型不再孤立，而是嵌入在一個(gè)龐大的“Harness”（集成框架）里，包含工具服務(wù)器、瀏覽器、終端、搜索引擎、模擬器、沙盒、API 層、記憶系統(tǒng)、編排框架等。訓(xùn)練和推理必須更徹底地“解耦”，否則采樣吞吐量會急劇下降。他直言，這已經(jīng)不是一個(gè)建模問題，而是一個(gè)系統(tǒng)工程問題。

其次，環(huán)境本身成為一項(xiàng)研究對象。在SFT（監(jiān)督微調(diào)）時(shí)代，行業(yè)執(zhí)著于數(shù)據(jù)多樣性；在智能體時(shí)代，應(yīng)該執(zhí)著于“環(huán)境質(zhì)量”——穩(wěn)定性、真實(shí)性、狀態(tài)豐富度、抗模型“鉆空子”的能力。林俊旸表示，環(huán)境構(gòu)建已從副業(yè)開始，逐漸成為一個(gè)真實(shí)的創(chuàng)業(yè)方向，而非邊角料項(xiàng)目。

最棘手的挑戰(zhàn)則是reward hacking（獎(jiǎng)勵(lì)破譯）。林俊旸稱，模型一旦獲得調(diào)用工具的權(quán)限，作弊就變得容易得多：有搜索能力的模型可能在RL訓(xùn)練時(shí)直接去查答案，編程Agent可能利用代碼倉庫的漏洞走捷徑。環(huán)境里藏著漏洞的話，策略看起來超強(qiáng)，其實(shí)是學(xué)會了作弊。他認(rèn)為，未來真正卡脖子的研究瓶頸，將來自環(huán)境設(shè)計(jì)、評估器的魯棒性、反作弊機(jī)制。

智能體式思考也意味著harness（集成框架）工程。林俊旸認(rèn)為，核心智能會越來越取決于多個(gè)智能體怎么組織：一個(gè)協(xié)調(diào)者來規(guī)劃任務(wù)、分派工作，幾個(gè)專業(yè)智能體充當(dāng)領(lǐng)域?qū)＜?，還有一些子智能體執(zhí)行具體任務(wù)，同時(shí)幫忙管好上下文、防止信息污染、保持不同層級推理之間的隔離。

對于競爭優(yōu)勢，林俊旸給出了自己的判斷：智能體時(shí)代拼的是更好的環(huán)境、更緊的訓(xùn)推耦合、更強(qiáng)的harness工程，以及能不能把模型的決策和決策的后果真正串成一個(gè)閉環(huán)。

未來是從訓(xùn)練模型走向訓(xùn)練智能體、訓(xùn)練智能體系統(tǒng)的時(shí)代，林俊旸寫道。

公開資料顯示，林俊旸出生于1993年，是阿里巴巴最年輕的P10級技術(shù)負(fù)責(zé)人。林俊旸本科就讀北京大學(xué)計(jì)算機(jī)科學(xué)專業(yè)，碩士階段在北京大學(xué)外國語學(xué)院完成，學(xué)習(xí)語言學(xué)與應(yīng)用語言學(xué)。2019年畢業(yè)后，林俊旸加入阿里巴巴達(dá)摩院，正式開啟職業(yè)生涯，擔(dān)任高級算法工程師。

2022年底，阿里巴巴將達(dá)摩院的語言、視覺等AI團(tuán)隊(duì)整體并入阿里云，成立通義實(shí)驗(yàn)室。林俊旸被正式任命為通義千問系列大模型的技術(shù)負(fù)責(zé)人。作為Qwen的“代言人”，林俊旸曾負(fù)責(zé)所有模型發(fā)布、基準(zhǔn)測試、社區(qū)互動，還在2025年親自組建機(jī)器人與具身智能團(tuán)隊(duì)，并被視為堅(jiān)定的開源倡導(dǎo)者。

責(zé)任編輯：宦艷紅

圖片編輯：沈軻

校對：丁曉

澎湃新聞報(bào)料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報(bào)

#阿里千問 #林俊旸