DeepSeek三天內(nèi)兩次故障 服務異常引發(fā)熱議!今天傍晚,DeepSeek再度出現(xiàn)服務異常,許多用戶在社交平臺上反饋,在對話過程中頻繁遇到“請檢查網(wǎng)絡后重試”或“服務器繁忙”等提示。目前,服務已恢復正常。
這是三天內(nèi)DeepSeek第二次發(fā)生服務故障。上周日,平臺曾經(jīng)歷上線以來最長的一次中斷。3月29日晚9點35分起,大量用戶發(fā)現(xiàn)DeepSeek無法發(fā)起新對話,已有對話頻繁中斷,屏幕上反復彈出“服務器繁忙”的提示。當晚11點23分,系統(tǒng)曾短暫恢復,但不到一小時又崩潰。技術團隊隨即啟動二次修復,直至次日上午10點33分才宣布故障排除。整個過程持續(xù)近12小時,波及網(wǎng)頁端與App端,修復過程也一波三折。相關話題迅速登上微博熱搜引發(fā)熱議,在海外開發(fā)者社區(qū)里同樣引起廣泛關注。公開記錄顯示,DeepSeek網(wǎng)頁端此前從未出現(xiàn)超過2小時的服務中斷。
有技術觀察人士猜測,DeepSeek近日服務不穩(wěn)可能與其正處于“臨發(fā)布狀態(tài)”有關。頻繁的服務器壓力測試、底層架構調(diào)整與新模型部署等都可能導致服務波動。一些細心的網(wǎng)友發(fā)現(xiàn)了一些線索。比如,有海外開發(fā)者在Zero-shot編碼測試中注意到,DeepSeek當前的輸出結(jié)構比前幾天更加清晰,邏輯嚴謹程度顯著提升;還有網(wǎng)友發(fā)現(xiàn),DeepSeek在Web應用程序中進行了升級,輸出效果明顯改善;另有網(wǎng)友觀察到,App端的上傳按鈕界面進行了更新,這些細微變化通常預示著后端架構正在或即將經(jīng)歷大幅調(diào)整。
雖然V4尚未正式發(fā)布,但DeepSeek團隊這段時間并沒有閑著。過去幾個月,DeepSeek接連與北京大學、清華大學合作發(fā)布了多篇重要論文,提前透露了V4的關鍵技術方向。1月,由梁文鋒署名的論文提出Engram“條件記憶”模塊,解決了Transformer的記憶難題。這種將固定知識從Transformer中剝離出來的全新機制,讓模型不再需要用昂貴的計算去“死記硬背”,而是通過近乎O(1)的查表操作快速獲取知識。緊接著2月,DeepSeek又發(fā)布了DualPath推理框架,專門解決模型在多輪對話場景下越聊越慢的問題。通過一套巧妙的加載機制,這套框架把離線推理的吞吐量提升了近兩倍,在線服務的吞吐量也幾乎翻了一番,而這一切僅靠軟件優(yōu)化實現(xiàn),不增加任何硬件成本。
這兩項技術突破,一個指向模型架構層面的“記憶與計算分離”,一個指向推理系統(tǒng)層面的“I/O瓶頸突破”,構成了V4從算法到底座的兩大技術支柱。市場和網(wǎng)友們對DeepSeek新版本充滿期待。作為一度攪動大模型價格戰(zhàn)的“價格屠夫”,DeepSeek此前以極具競爭力的定價策略,大幅降低了開發(fā)者調(diào)用大模型的門檻。在算力成本仍是行業(yè)核心痛點的當下,大家希望DeepSeek能夠再次帶來成本更低的Token,使更為高效且廉價的大模型能力惠及更多開發(fā)者和應用場景。
DeepSeek三天內(nèi)兩次故障 服務異常引發(fā)熱議!