林俊旸從阿里離職后首發(fā)長文展望AI智能體時代

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2026-03-27 00:39:12 第一財經(jīng)

3月26日晚間，前千問大模型技術(shù)負責人林俊旸在社交平臺發(fā)文，詳述了他對大模型發(fā)展路線的理解及對AI下一階段的預判。他認為過去兩年重塑了行業(yè)對大模型的評估方式與核心期待。OpenAI 的 o1 表明，“思考”可以成為一種被訓練出來的能力。DeepSeek-R1 證明推理式的后訓練可以在原始實驗室之外被復現(xiàn)、被擴展。這一階段至關(guān)重要，但2025年上半年，行業(yè)焦點主要停留在“推理式思考”本身：如何讓模型在推理時多想一會兒。他判斷下一步是智能體式思考：為了行動而思考，在與環(huán)境交互過程中，并根據(jù)來自世界的反饋持續(xù)更新計劃。

林俊旸提到，2025年初，千問團隊有一個很大的野心：做一個統(tǒng)一的系統(tǒng)，讓思考模式和指令模式合二為一，支持可調(diào)節(jié)的推理努力程度（類似于低/中/高推理設(shè)置），甚至能根據(jù)提示詞和上下文自動推斷合適的推理量，讓模型自主決定何時直接回答、何時稍作思考、何時為真正困難的問題投入大量計算。概念上，這是正確的方向，但合并說起來容易，做好卻極難。真正的難點在于數(shù)據(jù)。當人們談?wù)摵喜⑺伎寂c指令時，往往首先想到模型側(cè)的兼容性，更深層的問題是兩種模式的數(shù)據(jù)分布和行為目標存在顯著差異。在嘗試平衡模型合并與提升后訓練數(shù)據(jù)質(zhì)量和多樣性的過程中，團隊并未把所有事情都做對，結(jié)果往往是在兩個方向上都表現(xiàn)平庸：“思考”行為變得嘈雜、冗余或不夠果斷，而“指令”行為則變得不夠清晰、不夠可靠，且比商業(yè)用戶實際想要的成本更高。

分開做在實踐中仍然有吸引力。2025年下半年，Qwen 的2507版本發(fā)布了獨立的Instruct和Thinking版本，30B和235B各一套。他的最終思考是，真正成功的合并需要一個平滑的推理力度光譜，模型能自己判斷該花多少力氣去想。推理鏈更長并不等于模型更聰明，很多時候，推理鏈越長，反而說明模型在亂花算力。千問團隊意識到，行業(yè)正在從訓練模型的時代，走向訓練智能體的時代，其定義特征是跟真實世界的閉環(huán)交互。

智能體式思考和推理式思考意味著不同的優(yōu)化目標。推理式思考通常以最終答案前的內(nèi)部思辨質(zhì)量來評判：模型能否解出定理、寫出證明、生成正確代碼或通過基準測試。而智能體思維關(guān)注的是：模型能否在與環(huán)境交互的過程中持續(xù)取得進展。這意味著核心問題從“模型能否思考得足夠久？”轉(zhuǎn)變?yōu)椤澳Ｐ湍懿荒苡靡环N撐得起有效行動的方式來思考？”模型訓練的核心對象也隨之變了，變成了模型加環(huán)境的整個系統(tǒng)。在這之中，模型架構(gòu)和訓練數(shù)據(jù)當然還重要，但環(huán)境設(shè)計、rollout基礎(chǔ)設(shè)施、評估器的穩(wěn)健程度、多個Agent之間怎么協(xié)調(diào)，這些都進入了核心圈?！昂玫乃伎肌钡亩x也變了：在真實約束下最能撐起行動的那條軌跡，而非最長或最顯眼的那條。林俊旸預測，智能體式思考會成為主流。

(責任編輯：0764)

關(guān)閉

林俊旸從阿里離職后首發(fā)長文 展望AI智能體時代

相關(guān)新聞

今日熱點

頻道熱點

林俊旸從阿里離職后首發(fā)長文展望AI智能體時代