3月26日晚間,前千問大模型技術(shù)負責人林俊旸在社交平臺發(fā)文,詳述了他對大模型發(fā)展路線的理解及對AI下一階段的預(yù)判。他認為過去兩年重塑了行業(yè)對大模型的評估方式與核心期待。OpenAI 的 o1 表明,“思考”可以成為一種被訓(xùn)練出來的能力。DeepSeek-R1 證明推理式的后訓(xùn)練可以在原始實驗室之外被復(fù)現(xiàn)、被擴展。這一階段至關(guān)重要,但2025年上半年,行業(yè)焦點主要停留在“推理式思考”本身:如何讓模型在推理時多想一會兒。他判斷下一步是智能體式思考:為了行動而思考,在與環(huán)境交互過程中,并根據(jù)來自世界的反饋持續(xù)更新計劃。
林俊旸提到,2025年初,千問團隊有一個很大的野心:做一個統(tǒng)一的系統(tǒng),讓思考模式和指令模式合二為一,支持可調(diào)節(jié)的推理努力程度(類似于低/中/高推理設(shè)置),甚至能根據(jù)提示詞和上下文自動推斷合適的推理量,讓模型自主決定何時直接回答、何時稍作思考、何時為真正困難的問題投入大量計算。概念上,這是正確的方向,但合并說起來容易,做好卻極難。真正的難點在于數(shù)據(jù)。當人們談?wù)摵喜⑺伎寂c指令時,往往首先想到模型側(cè)的兼容性,更深層的問題是兩種模式的數(shù)據(jù)分布和行為目標存在顯著差異。在嘗試平衡模型合并與提升后訓(xùn)練數(shù)據(jù)質(zhì)量和多樣性的過程中,團隊并未把所有事情都做對,結(jié)果往往是在兩個方向上都表現(xiàn)平庸:“思考”行為變得嘈雜、冗余或不夠果斷,而“指令”行為則變得不夠清晰、不夠可靠,且比商業(yè)用戶實際想要的成本更高。
分開做在實踐中仍然有吸引力。2025年下半年,Qwen 的2507版本發(fā)布了獨立的Instruct和Thinking版本,30B和235B各一套。他的最終思考是,真正成功的合并需要一個平滑的推理力度光譜,模型能自己判斷該花多少力氣去想。推理鏈更長并不等于模型更聰明,很多時候,推理鏈越長,反而說明模型在亂花算力。千問團隊意識到,行業(yè)正在從訓(xùn)練模型的時代,走向訓(xùn)練智能體的時代,其定義特征是跟真實世界的閉環(huán)交互。
3月4日凌晨,當中國互聯(lián)網(wǎng)圈大部分人已進入休息時間,X平臺上一則簡短的英文動態(tài)悄然引爆了科技圈
2026-03-04 15:14:03阿里高層出面挽留林俊旸