2月13日,澎湃新聞?dòng)浾攉@悉,DeepSeek網(wǎng)頁/APP正在測試新的長文本模型結(jié)構(gòu),支持1M上下文。其API服務(wù)不變,仍為V3.2,僅支持128K上下文。
這也被外界認(rèn)為,DeepSeek或?qū)⒃诮衲甏汗?jié)再次“炸場”發(fā)布新模型,復(fù)刻去年春節(jié)現(xiàn)象級轟動(dòng)。
今年1月12日,DeepSeek曾發(fā)布一篇新論文《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》(基于可擴(kuò)展查找的條件記憶:大語言模型稀疏性的新維度),梁文鋒位列作者名單中,這篇論文為北京大學(xué)和DeepSeek共同完成。據(jù)分析,這篇論文的核心直指當(dāng)前大語言模型存在的記憶力“短板”,提出了“條件記憶”這一概念。
當(dāng)時(shí)行業(yè)就普遍猜測,DeepSeek的下一代模型V4或?qū)⒃诮衲甏汗?jié)前后正式發(fā)布。