存儲(chǔ)芯片股集體重挫 AI新技術(shù)沖擊市場。3月27日,媒體報(bào)道稱,美東時(shí)間3月26日,存儲(chǔ)芯片股集體下跌,其中閃迪跌幅超過11%,希捷跌幅超過8%,超威半導(dǎo)體、西部數(shù)據(jù)跌幅超過7%,美光科技跌幅接近7%。這一市場波動(dòng)源于谷歌研究院即將在國際學(xué)習(xí)表征會(huì)議(ICLR 2026)上發(fā)布的一篇學(xué)術(shù)論文,該研究介紹了一種名為“TurboQuant”的新型AI內(nèi)存壓縮技術(shù)。
谷歌表示,這項(xiàng)技術(shù)可以將大語言模型推理過程中的緩存內(nèi)存占用減少至原來的六分之一,并且在英偉達(dá)H100 GPU上實(shí)現(xiàn)最高8倍的性能加速。AI模型運(yùn)行時(shí)會(huì)使用一種稱為KV緩存的工作內(nèi)存,這種緩存隨著處理信息和生成回答而迅速膨脹,特別是在上下文窗口較長的情況下。TurboQuant是一種極致的量化壓縮算法,通過PolarQuant(極坐標(biāo)量化)和QJL(量化JL變換)兩項(xiàng)創(chuàng)新,在不損失精度的前提下將KV緩存壓縮至3-bit精度。
Cloudflare首席執(zhí)行官認(rèn)為,這項(xiàng)成果可能是谷歌的一個(gè)重要突破,有望大幅降低AI的運(yùn)行成本。然而,摩根士丹利在最新研報(bào)中指出,市場對(duì)這項(xiàng)技術(shù)存在誤解。該技術(shù)僅作用于推理階段的鍵值緩存,并不影響模型權(quán)重所占用的高帶寬內(nèi)存(HBM),也不涉及AI訓(xùn)練任務(wù)。分析師解釋說,“6倍壓縮”并不是指存儲(chǔ)總需求減少,而是通過效率提升增加單GPU的吞吐量,從而支持更長的上下文或更大的批處理規(guī)模。
目前,谷歌尚未公布TurboQuant在Gemini等自研模型中的具體部署時(shí)間表,相關(guān)研究成果計(jì)劃在下個(gè)月的ICLR 2026會(huì)議上正式發(fā)布。