去年7月,DeepSeek的下載量從高峰期的8000多萬暴跌至2000多萬,下滑了72.2%,成為互聯(lián)網(wǎng)熱議的話題。然而,據(jù)知情人士透露,DeepSeek即將重登王座,計劃在二月中旬發(fā)布新一代模型DeepSeek-V4,正值農(nóng)歷2026年新年期間,距離上一代模型DeepSeek-R1的發(fā)布正好一年。
這次發(fā)布的重點是代碼生成和處理能力。根據(jù)內(nèi)部基準測試,V4在編程任務(wù)上的表現(xiàn)超過了市場上的主流競品,如Anthropic的Claude和OpenAI的GPT系列。新模型解決了許多長期困擾AI發(fā)展的技術(shù)難題,可能徹底改變Vibe Coding產(chǎn)業(yè)。
報道中提到,DeepSeek-V4模型在整個訓練過程中理解數(shù)據(jù)模式的能力有所改進,且性能未出現(xiàn)衰減。這意味著模型不再只是死記硬背數(shù)據(jù),而是能看透數(shù)據(jù)背后的規(guī)律和邏輯。例如,之前的DeepSeek-R1模型在數(shù)strawberry里有幾個r時,由于不理解“數(shù)”這個概念,答案通常是錯誤的2而不是3。而DeepSeek-V4則會避免這種情況,前提是讓模型徹底理解某件事情。
此外,V4在不斷學習新東西或訓練時間加長的過程中,依然保持了極高的穩(wěn)定性和原有能力的完整性,沒有出現(xiàn)“災難性遺忘”或“模型坍塌”。這為構(gòu)建編程Agent提供了前置條件。以往的模型受限于上下文窗口或注意力機制的衰減,無法對龐大的項目進行修改,而V4可能是一個為“Agent時代”量身定制的模型。
一年前,DeepSeek-R1的發(fā)布證明了低成本研發(fā)路徑的可行性。如今,人工智能行業(yè)的關(guān)注焦點已經(jīng)轉(zhuǎn)向代碼生成,這是大模型能力的“試金石”。在當前的開發(fā)環(huán)境中,“Vibe Coding”要求AI不僅能補全代碼,還能理解開發(fā)者的意圖流,實現(xiàn)從自然語言到復雜工程邏輯的無縫轉(zhuǎn)化。DeepSeek似乎已經(jīng)準備好在新賽道上狂飆。
梳理DeepSeek團隊及核心人物梁文鋒在過去一年里的學術(shù)軌跡,可以發(fā)現(xiàn)一條清晰的技術(shù)演進路線。2025年9月,DeepSeek-R1的相關(guān)論文登上《Nature》封面,梁文鋒署名通訊作者。面對質(zhì)疑,DeepSeek團隊否認使用了OpenAI模型輸出進行蒸餾訓練,并公開了低成本數(shù)據(jù):從V3-Base訓練到R1僅花費29.4萬美元。這些成果標志著DeepSeek在學術(shù)嚴謹性和技術(shù)原創(chuàng)性上獲得了國際認可。
真正佐證DeepSeek-V4在代碼方面有大幅突破的是2025年最后一天發(fā)表的論文《mHC:流形約束超連接》。這項研究解決了大模型在“做大”和“做復雜”過程中的穩(wěn)定性難題,意味著V4模型可能采用了這種全新架構(gòu),從而在擁有更龐大參數(shù)量和更深層推理能力的同時,保持高效的訓練效率和穩(wěn)定性。
2026年1月初,DeepSeek將arXiV上的R1論文從原本的22頁擴充至86頁,披露了R1的完整訓練管線。業(yè)界推測,這種技術(shù)披露預示著下一代更強大的技術(shù)已經(jīng)成熟。與此同時,其他公司也在行動。九坤投資創(chuàng)始團隊發(fā)起成立的至知創(chuàng)新研究院發(fā)布了開源代碼大模型IQuest-Coder-V1,在SWE-benchVerified測試中取得了高分。字節(jié)跳動和阿里也推出了各自的AI編程工具,展示了跨應用操作等能力。
資本市場也迎來了大模型行業(yè)的收獲季。智譜AI和MiniMax成功上市,市值迅速增長,盡管高額的研發(fā)投入使兩家公司目前仍處于虧損狀態(tài),但強勁的增長曲線證明了市場對于高質(zhì)量AI模型的付費意愿正在形成。全球目光再次聚焦到DeepSeek身上,他們即將在春節(jié)期間交出新的答卷。
微信微博快手第一時間為您推送權(quán)威資訊報道全球 傳播中國關(guān)注人民網(wǎng)
2025-09-05 07:52:24英國博主說九三閱兵是給全世界的歷史課近日,國新辦舉行“高質(zhì)量完成‘十四五’規(guī)劃”系列主題新聞發(fā)布會,介紹“十四五”時期大力推進新型工業(yè)化有關(guān)情況。
2025-09-13 08:57:28向新而行|中國“新三樣”