谷歌公開最新極限壓縮算法 TurboQuant破解內(nèi)存瓶頸。破解算力問題,降低模型所需的存算空間,可以通過多種途徑實(shí)現(xiàn),比如減少訓(xùn)練或推理時(shí)的算力需求。稀疏化、量化、壓縮和蒸餾等方法都是常用手段。不同企業(yè)和研究機(jī)構(gòu)會(huì)根據(jù)各自的需求選擇不同的策略。
以長上下文任務(wù)為例,過去兩年中,AI算法團(tuán)隊(duì)提出了一種基于鍵值緩存(KV Cache)的分離架構(gòu)設(shè)計(jì),將預(yù)填充服務(wù)器與解碼服務(wù)器分開。這種設(shè)計(jì)在大batch size及隊(duì)列場景下需要更大的系統(tǒng)內(nèi)存帶寬。許多推理任務(wù)的瓶頸在于內(nèi)存帶寬。
谷歌最近發(fā)布了一項(xiàng)名為TurboQuant的算法,旨在解決大模型運(yùn)行時(shí)的內(nèi)存消耗問題。該技術(shù)的核心是讓AI在思考和回答問題時(shí)占用更少的工作內(nèi)存,同時(shí)保持幾乎相同的智力水平,甚至速度更快。官方表示,TurboQuant的推出將帶來多項(xiàng)好處:百萬Token上下文成本顯著下降;向量數(shù)據(jù)庫領(lǐng)域更容易實(shí)現(xiàn)實(shí)時(shí)索引和亞毫秒查詢;邊緣AI領(lǐng)域中手機(jī)和嵌入式設(shè)備的上下文推理更加實(shí)際。此外,這項(xiàng)技術(shù)還可以擴(kuò)展到多模態(tài)領(lǐng)域的向量壓縮。
TurboQuant的發(fā)布對存儲(chǔ)市場產(chǎn)生了影響。美股存儲(chǔ)板塊如美光科技、閃迪等公司股價(jià)應(yīng)聲下跌。近年來,由于數(shù)據(jù)中心建設(shè)擴(kuò)張需求激增,內(nèi)存(RAM)、固態(tài)硬盤(SSD)和硬盤驅(qū)動(dòng)器(HDD)等存儲(chǔ)產(chǎn)品出現(xiàn)供應(yīng)短缺和價(jià)格上漲。市場反應(yīng)表明,TurboQuant一旦廣泛應(yīng)用,可能會(huì)顯著改變對未來AI推理服務(wù)器中內(nèi)存容量規(guī)格的需求判斷,重塑相關(guān)硬件的成本曲線。
要理解TurboQuant的價(jià)值,需要了解大模型生成文本的過程。它們并不是一次性處理所有信息,而是逐字生成。在這個(gè)過程中,模型需要一個(gè)“臨時(shí)記事本”來記住之前的所有對話內(nèi)容,避免重復(fù)計(jì)算。這個(gè)“記事本”即鍵值緩存(KV Cache)。隨著對話長度增加,KV Cache會(huì)迅速撐滿高性能內(nèi)存,成為制約AI處理速度和推高運(yùn)行成本的主要瓶頸。
TurboQuant運(yùn)用了兩個(gè)核心算法:PolarQuant主壓縮和QJL(量化Johnson-Lindenstrauss變換)殘差校正,目標(biāo)是壓縮KV Cache中的向量。PolarQuant通過極坐標(biāo)描述高維向量,經(jīng)過特定數(shù)學(xué)變換后,數(shù)值分布變得非常規(guī)律和集中,從而實(shí)現(xiàn)高質(zhì)量壓縮。而QJL則通過1比特表征殘差,結(jié)合高精度原始查詢向量,實(shí)現(xiàn)無偏的內(nèi)積估計(jì),確保數(shù)據(jù)被大幅壓縮后,AI計(jì)算結(jié)果依然準(zhǔn)確。
根據(jù)谷歌官方博客,TurboQuant帶來了接近理論極限的性能提升:可以將KV Cache壓縮到每通道僅3比特,相比傳統(tǒng)的16或32比特存儲(chǔ),減少了至少6倍的內(nèi)存占用。在多個(gè)標(biāo)準(zhǔn)長上下文基準(zhǔn)測試上,使用3.5比特配置的TurboQuant,模型性能與全精度緩存一致,2.5比特配置下僅有輕微性能下降。此外,由于讀取數(shù)據(jù)量銳減,計(jì)算速度也得到極大提升。在H100 GPU上,4比特TurboQuant的注意力核心步驟速度比未壓縮的32比特版本快8倍。
TurboQuant不僅在實(shí)驗(yàn)室中表現(xiàn)出色,還適用于需要在高維向量數(shù)據(jù)庫中進(jìn)行海量搜索的場景,如現(xiàn)代語義搜索引擎。相關(guān)論文將在ICLR 2026和AISTATS 2026發(fā)表。
隨著AI技術(shù)的發(fā)展,從“算力時(shí)代”進(jìn)入“推理時(shí)代”,內(nèi)存需求激增,推動(dòng)了全球存儲(chǔ)公司的業(yè)績和股價(jià)上漲
2026-03-27 12:00:04谷歌新算法抹去存儲(chǔ)股6200億市值在張家界七星山的荒野中,暴雨反復(fù)沖刷著大地。唯一的女選手“冷美人”在泥濘中倒下,這場被稱為“國際極限荒野求生挑戰(zhàn)賽”的殘酷性終于顯露出來
2025-11-18 19:22:51荒野求生女選手冷美人最新發(fā)聲