前阿里千問負責人林俊旸離職后首發(fā)長文：從訓(xùn)練模型轉(zhuǎn)向訓(xùn)練智能體

澎湃新聞記者喻琰

2026-03-27 14:06

來源：澎湃新聞

聽全文

3月26日，原阿里通義千問（Qwen）技術(shù)負責人林俊旸（Justin Lin）在社交平臺上發(fā)布了一篇題為“From ‘Reasoning’ Thinking to‘Agentic’ Thinking（從推理式思考到智能體思考）的文章長文。這是他自本月初從阿里辭職之后發(fā)布的第一篇長文。

在這篇文章中，林俊旸系統(tǒng)性地復(fù)盤了推理模型階段的特征，并探討了AI未來的發(fā)展方向：從訓(xùn)練模型轉(zhuǎn)向訓(xùn)練智能體。

從“想得更久”到“為了行動而想”

林俊旸首先區(qū)分了兩種截然不同的思考范式：推理式思考與智能體式思考。

推理式思考核心是模型在給出最終答案之前的內(nèi)部推演質(zhì)量，即能不能解這道定理，能不能寫對代碼，能不能通過benchmark（基準測試）。

OpenAI的o1和DeepSeek-R1代表的正是這一范式，它們證明了在擁有確定性、穩(wěn)定且能規(guī)?；姆答佇盘柵c強大的基礎(chǔ)設(shè)施支持下，語言模型上的強化學習能帶來“質(zhì)變”級的認知提升。

但林俊旸認為，現(xiàn)在該問的是下一步：如何實現(xiàn)智能體式思考。這一思考模式的追問的是模型在跟環(huán)境打交道的過程中，能不能持續(xù)往前走。核心問題從“模型能不能想得夠久”變成了“模型能不能用一種撐得起有效行動的方式來想”。

這意味著，智能體式思考要處理幾件純推理模型無需面對的難題：何時停止思考開始行動？如何選擇工具并排序？如何處理殘缺的、有噪聲的環(huán)境反饋？行動失敗了如何改計劃？如何在長期交互中保持思路不斷？

林俊旸總結(jié)，“智能體式思考，就是通過行動來推理?！彼A(yù)測，智能體式思考將逐漸取代舊式“內(nèi)部獨白式推理”——那種又長又封閉的內(nèi)部軌跡，試圖靠吐出越來越多的文字彌補自己沒法跟外界交互的缺陷。哪怕是極難的數(shù)學或編程任務(wù)，一個真正先進的系統(tǒng)也應(yīng)該能搜索、能模擬、能執(zhí)行、能檢查、能修訂。

“2025年初，我們千問團隊有一個很大的野心：做一個統(tǒng)一的系統(tǒng)，把思考模式和指令模式合二為一。調(diào)推理力度可以低、中、高三檔。更好的是模型能從提示詞和上下文里自動判斷該想多久，簡單的直接答，難的多花算力?！绷挚D稱。

林俊旸也對探索智能體式思考這一嘗試做了復(fù)盤。他寫道，真正的麻煩不在模型架構(gòu)，而在數(shù)據(jù)。

優(yōu)秀的指令模型核心優(yōu)勢是直接、簡潔、格式合規(guī)、低延遲，服務(wù)于企業(yè)的高吞吐批量任務(wù)；而優(yōu)秀的思考模型，則需要消耗更多的Token、保持連貫的中間推理結(jié)構(gòu)、探索多種解題路徑、保留足夠內(nèi)部算力得以顯著提升最終正確率。

但這兩種行為特征“天然互斥”，如果融合數(shù)據(jù)未經(jīng)精細篩選，最終結(jié)果往往兩頭平庸：“思考”行為變得雜亂、冗雜、決策力不足；“指令”行為不夠干脆、可靠性下降、成本超出商用需求。

因此，2025年下半年，Qwen的2507版本就發(fā)了獨立的Instruct和Thinking版本。林俊旸認為，真正成功的合并需要一個平滑的推理力度光譜，而非簡單的模式開關(guān)，這恰恰是GPT的“effort control”機制所指向的方向。

三項挑戰(zhàn)

向智能體式思考的轉(zhuǎn)型，將帶來三個層面的全新挑戰(zhàn)。

首先是基礎(chǔ)設(shè)施的重構(gòu)。林俊旸指出，在智能體強化學習中，模型不再孤立，而是嵌入在一個龐大的“Harness”（集成框架）里，包含工具服務(wù)器、瀏覽器、終端、搜索引擎、模擬器、沙盒、API 層、記憶系統(tǒng)、編排框架等。訓(xùn)練和推理必須更徹底地“解耦”，否則采樣吞吐量會急劇下降。他直言，這已經(jīng)不是一個建模問題，而是一個系統(tǒng)工程問題。

其次，環(huán)境本身成為一項研究對象。在SFT（監(jiān)督微調(diào)）時代，行業(yè)執(zhí)著于數(shù)據(jù)多樣性；在智能體時代，應(yīng)該執(zhí)著于“環(huán)境質(zhì)量”——穩(wěn)定性、真實性、狀態(tài)豐富度、抗模型“鉆空子”的能力。林俊旸表示，環(huán)境構(gòu)建已從副業(yè)開始，逐漸成為一個真實的創(chuàng)業(yè)方向，而非邊角料項目。

最棘手的挑戰(zhàn)則是reward hacking（獎勵破譯）。林俊旸稱，模型一旦獲得調(diào)用工具的權(quán)限，作弊就變得容易得多：有搜索能力的模型可能在RL訓(xùn)練時直接去查答案，編程Agent可能利用代碼倉庫的漏洞走捷徑。環(huán)境里藏著漏洞的話，策略看起來超強，其實是學會了作弊。他認為，未來真正卡脖子的研究瓶頸，將來自環(huán)境設(shè)計、評估器的魯棒性、反作弊機制。

智能體式思考也意味著harness（集成框架）工程。林俊旸認為，核心智能會越來越取決于多個智能體怎么組織：一個協(xié)調(diào)者來規(guī)劃任務(wù)、分派工作，幾個專業(yè)智能體充當領(lǐng)域?qū)＜?，還有一些子智能體執(zhí)行具體任務(wù)，同時幫忙管好上下文、防止信息污染、保持不同層級推理之間的隔離。

對于競爭優(yōu)勢，林俊旸給出了自己的判斷：智能體時代拼的是更好的環(huán)境、更緊的訓(xùn)推耦合、更強的harness工程，以及能不能把模型的決策和決策的后果真正串成一個閉環(huán)。

未來是從訓(xùn)練模型走向訓(xùn)練智能體、訓(xùn)練智能體系統(tǒng)的時代，林俊旸寫道。

公開資料顯示，林俊旸出生于1993年，是阿里巴巴最年輕的P10級技術(shù)負責人。林俊旸本科就讀北京大學計算機科學專業(yè)，碩士階段在北京大學外國語學院完成，學習語言學與應(yīng)用語言學。2019年畢業(yè)后，林俊旸加入阿里巴巴達摩院，正式開啟職業(yè)生涯，擔任高級算法工程師。

2022年底，阿里巴巴將達摩院的語言、視覺等AI團隊整體并入阿里云，成立通義實驗室。林俊旸被正式任命為通義千問系列大模型的技術(shù)負責人。作為Qwen的“代言人”，林俊旸曾負責所有模型發(fā)布、基準測試、社區(qū)互動，還在2025年親自組建機器人與具身智能團隊，并被視為堅定的開源倡導(dǎo)者。

責任編輯：宦艷紅

圖片編輯：沈軻

校對：丁曉

澎湃新聞報料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報

#阿里千問 #林俊旸