昨天傍晚,DeepSeek再度出現(xiàn)服務(wù)異常,社交平臺上不少用戶反饋,在對話過程中頻繁遭遇“請檢查網(wǎng)絡(luò)后重試”或“服務(wù)器繁忙”等提示。目前,服務(wù)已恢復(fù)正常。
這是三天之內(nèi)DeepSeek第二次發(fā)生服務(wù)故障。上周日,平臺曾經(jīng)歷上線以來最長的一次中斷。3月29日晚9點35分起,大量用戶發(fā)現(xiàn)DeepSeek無法發(fā)起新對話,已有對話頻繁中斷,屏幕上反復(fù)彈出“服務(wù)器繁忙”的提示。當晚11點23分,系統(tǒng)曾短暫恢復(fù),但不到1小時再度崩潰。技術(shù)團隊隨即啟動二次修復(fù),直至次日上午10點33分才宣布故障排除。
整個過程持續(xù)時間近12小時,波及網(wǎng)頁端與App端,修復(fù)過程也一波三折。相關(guān)話題迅速登上微博熱搜引發(fā)熱議,在海外開發(fā)者社區(qū)里同樣引起廣泛關(guān)注。公開記錄顯示,DeepSeek網(wǎng)頁端此前從未出現(xiàn)超過2小時的服務(wù)中斷。
有技術(shù)觀察人士猜測,DeepSeek近日服務(wù)不穩(wěn)可能與其正處于“臨發(fā)布狀態(tài)”有關(guān)。頻繁的服務(wù)器壓力測試、底層架構(gòu)調(diào)整與新模型部署等都有可能引發(fā)服務(wù)波動。一些細心的網(wǎng)友還發(fā)現(xiàn)了一些變化。例如,有海外開發(fā)者在Zero-shot編碼測試中注意到,DeepSeek當前的輸出結(jié)構(gòu)比前幾天更加清晰,邏輯嚴謹程度大大提升;還有網(wǎng)友發(fā)現(xiàn),DeepSeek在Web應(yīng)用程序中進行了升級,輸出效果改善明顯;App端的上傳按鈕界面也進行了更新,這些細微變化通常預(yù)示著后端架構(gòu)正在或即將經(jīng)歷大幅調(diào)整。
雖然V4尚未正式發(fā)布,但DeepSeek團隊這段時間并沒有閑著。過去幾個月,DeepSeek接連與北京大學、清華大學合作發(fā)布了多篇重磅論文,提前揭示了V4的關(guān)鍵技術(shù)方向。1月,梁文鋒署名的論文提出Engram“條件記憶”模塊,解決了Transformer的記憶難題。這種將固定知識從Transformer中剝離出來的全新機制,讓模型不再需要用昂貴的計算去“死記硬背”,而是通過近乎O(1)的查表操作快速獲取知識。緊接著2月,DeepSeek又發(fā)布了DualPath推理框架,專門解決模型在多輪對話場景下越聊越慢的問題。通過一套巧妙的加載機制,這套框架把離線推理的吞吐量提升了近兩倍,在線服務(wù)的吞吐量也幾乎翻了一番,這一切僅靠軟件優(yōu)化實現(xiàn),不增加任何硬件成本。
這兩項技術(shù)突破,一個指向模型架構(gòu)層面的“記憶與計算分離”,一個指向推理系統(tǒng)層面的“I/O瓶頸突破”,構(gòu)成了V4從算法到底座的兩大技術(shù)支柱。市場和網(wǎng)友們對DeepSeek新版本的期待并非沒有緣由。作為一度攪動大模型價格戰(zhàn)的“價格屠夫”,DeepSeek此前以極具競爭力的定價策略,大幅降低了開發(fā)者調(diào)用大模型的門檻。在算力成本仍是行業(yè)核心痛點的當下,大家渴望DeepSeek能夠再次帶來成本更低的Token,讓更為高效且廉價的大模型能力惠及更多開發(fā)者和應(yīng)用場景。
DeepSeek于12日晚發(fā)布了一篇新論文《基于可擴展查找的條件記憶:大型語言模型稀疏性的新維度》。該論文由北京大學與DeepSeek共同完成,合著作者中包括梁文鋒
2026-01-14 00:09:42DeepSeek發(fā)布新論文