梳理DeepSeek團隊及核心人物梁文鋒在過去一年里的學術(shù)軌跡,可以發(fā)現(xiàn)一條清晰的技術(shù)演進路線。2025年9月,DeepSeek-R1的相關(guān)論文登上《Nature》封面,梁文鋒署名通訊作者。面對質(zhì)疑,DeepSeek團隊否認使用了OpenAI模型輸出進行蒸餾訓練,并公開了低成本數(shù)據(jù):從V3-Base訓練到R1僅花費29.4萬美元。這些成果標志著DeepSeek在學術(shù)嚴謹性和技術(shù)原創(chuàng)性上獲得了國際認可。
真正佐證DeepSeek-V4在代碼方面有大幅突破的是2025年最后一天發(fā)表的論文《mHC:流形約束超連接》。這項研究解決了大模型在“做大”和“做復雜”過程中的穩(wěn)定性難題,意味著V4模型可能采用了這種全新架構(gòu),從而在擁有更龐大參數(shù)量和更深層推理能力的同時,保持高效的訓練效率和穩(wěn)定性。
2026年1月初,DeepSeek將arXiV上的R1論文從原本的22頁擴充至86頁,披露了R1的完整訓練管線。業(yè)界推測,這種技術(shù)披露預示著下一代更強大的技術(shù)已經(jīng)成熟。與此同時,其他公司也在行動。九坤投資創(chuàng)始團隊發(fā)起成立的至知創(chuàng)新研究院發(fā)布了開源代碼大模型IQuest-Coder-V1,在SWE-benchVerified測試中取得了高分。字節(jié)跳動和阿里也推出了各自的AI編程工具,展示了跨應用操作等能力。
資本市場也迎來了大模型行業(yè)的收獲季。智譜AI和MiniMax成功上市,市值迅速增長,盡管高額的研發(fā)投入使兩家公司目前仍處于虧損狀態(tài),但強勁的增長曲線證明了市場對于高質(zhì)量AI模型的付費意愿正在形成。全球目光再次聚焦到DeepSeek身上,他們即將在春節(jié)期間交出新的答卷。
微信微博快手第一時間為您推送權(quán)威資訊報道全球 傳播中國關(guān)注人民網(wǎng)
2025-09-05 07:52:24英國博主說九三閱兵是給全世界的歷史課近日,國新辦舉行“高質(zhì)量完成‘十四五’規(guī)劃”系列主題新聞發(fā)布會,介紹“十四五”時期大力推進新型工業(yè)化有關(guān)情況。
2025-09-13 08:57:28向新而行|中國“新三樣”