谷歌近日推出了一種新的壓縮算法TurboQuant,旨在降低人工智能系統(tǒng)的內(nèi)存需求。該算法特別針對大語言模型和向量搜索引擎中的鍵值緩存瓶頸問題。隨著上下文窗口的增大,這些緩存成為主要的內(nèi)存瓶頸。TurboQuant可以在無需重新訓(xùn)練或微調(diào)模型的情況下,將鍵值緩存壓縮至3比特精度,并且基本保持模型準(zhǔn)確率不受影響。
測試結(jié)果顯示,TurboQuant對包括Gemma和Mistral在內(nèi)的開源模型實現(xiàn)了約6倍的鍵值緩存內(nèi)存壓縮效果。在英偉達(dá)H100加速器上的測試中,與未量化的鍵向量相比,該算法最高可實現(xiàn)約8倍的性能提升。研究人員表示,這項技術(shù)不僅適用于AI模型,還能增強(qiáng)大規(guī)模搜索引擎的向量檢索能力。谷歌計劃在2026年4月的國際學(xué)習(xí)表征會議上展示這一技術(shù)。
11月19日,谷歌發(fā)布了其最新、最先進(jìn)的基礎(chǔ)模型Gemini 3,用戶現(xiàn)在可以通過Gemini應(yīng)用和AI搜索界面立即使用
2025-11-19 14:22:19谷歌宣布推出大模型Gemini3隨著AI技術(shù)的發(fā)展,從“算力時代”進(jìn)入“推理時代”,內(nèi)存需求激增,推動了全球存儲公司的業(yè)績和股價上漲
2026-03-27 12:00:04谷歌新算法抹去存儲股6200億市值每經(jīng)AI快訊,3月31日,嗶哩嗶哩宣布,從明天零點起,B站將下線猜你喜歡算法,不再根據(jù)你的喜好來推薦主頁內(nèi)容,并上線推薦新算法
2026-03-31 18:03:17B站明日將下線猜你喜歡算法