DeepSeek提到的FP8到底是啥 引發(fā)AI圈熱議!DeepSeek V3.1發(fā)布后,一則官方留言在AI圈引起轟動(dòng)。短短不到20個(gè)字的留言中提到新的架構(gòu)和下一代國(guó)產(chǎn)芯片,信息量巨大。受此影響,國(guó)產(chǎn)芯片企業(yè)的股價(jià)紛紛上漲,例如寒武紀(jì)早盤(pán)盤(pán)中大漲近14%,總市值躍居科創(chuàng)板頭名。半導(dǎo)體ETF也在半天內(nèi)大漲5.89%。
許多人對(duì)UE8M0 FP8這一概念感到困惑。UE8M0 FP8可以拆分為兩部分解釋。UE8M0是MXFP8路徑中的“縮放因子”,而MXFP8是Open Compute Project在2023年發(fā)布的8 bit微縮塊格式。Open Compute Project是一個(gè)由Facebook(現(xiàn)Meta)、英特爾、Rackspace等發(fā)起的開(kāi)源硬件協(xié)作計(jì)劃,旨在通過(guò)共享數(shù)據(jù)中心及服務(wù)器設(shè)計(jì)推動(dòng)行業(yè)效率提升。其成員包括微軟、谷歌、亞馬遜、AMD、英偉達(dá)以及國(guó)內(nèi)的阿里、騰訊、百度等公司。
MXFP8基于FP8建立,將常規(guī)浮點(diǎn)格式壓縮到8 bit。MXFP8的核心思想是將張量切成固定長(zhǎng)度的“塊”,為每個(gè)塊指定一個(gè)2的整數(shù)次冪作為“縮放因子”,然后將塊內(nèi)所有數(shù)值除以這個(gè)系數(shù)后再寫(xiě)成FP8。這種塊級(jí)的縮放方式保留了8 bit位寬,同時(shí)擴(kuò)展了可用動(dòng)態(tài)范圍。UE8M0中的U表示無(wú)符號(hào),E和M分別代表指數(shù)位和尾數(shù)位分配到的bit數(shù)。UE8M0指8個(gè)bit全部分配給了指數(shù)位。
采用全指數(shù)表示縮放因子的方式有多個(gè)好處。首先,處理器在根據(jù)縮放因子復(fù)原數(shù)據(jù)時(shí)只需移動(dòng)指數(shù)位,無(wú)需進(jìn)行浮點(diǎn)乘法、規(guī)格化或舍入邏輯,縮短了時(shí)鐘關(guān)鍵路徑。此外,UE8M0的動(dòng)態(tài)范圍覆蓋2^(?127)到2^128,為后續(xù)塊縮放提供了充足空間。它還能解決單尺度FP8無(wú)法同時(shí)處理大/小值的問(wèn)題,減少了信息損失。
UE8M0 FP8更適配“下一代國(guó)產(chǎn)芯片”。目前,大部分已量產(chǎn)的國(guó)產(chǎn)AI加速器仍使用FP16/BF16 + INT8計(jì)算通路,未集成完整的FP8乘加單元。但摩爾線程MUSA 3.1 GPU、芯原VIP9000 NPU等新款國(guó)產(chǎn)芯片已在宣傳資料中列出“原生 FP8”或“Block FP8”支持,并與多家廠商聯(lián)合驗(yàn)證UE8M0格式。雖然下一代國(guó)產(chǎn)芯片在HBM/LPPDDR帶寬方面仍有差距,但UE8M0讓一組32個(gè)FP8數(shù)據(jù)只追加8bit縮放引子,相比傳統(tǒng)FP32節(jié)省75%流量,成為重要優(yōu)化方向。
網(wǎng)友們猜測(cè)DeepSeek可能是在說(shuō)哪家國(guó)產(chǎn)芯片。首批通過(guò)“DeepSeek大模型適配”的8家廠商中,寒武紀(jì)被看作“頭號(hào)種子選手”,市場(chǎng)反應(yīng)強(qiáng)烈。海光、沐曦、中昊芯英和摩爾線程等也被提及。華為昇騰雖然暫不支持原生FP8,但預(yù)計(jì)未來(lái)推出的910D可能會(huì)支持。這些國(guó)產(chǎn)芯片一旦支持UE8M0 FP8,意味著國(guó)產(chǎn)AI正走向軟硬協(xié)同階段,減少對(duì)國(guó)外算力的依賴。這將大幅提升國(guó)產(chǎn)芯片的性價(jià)比,使其更具競(jìng)爭(zhēng)優(yōu)勢(shì)。DeepSeek通過(guò)改動(dòng)精度格式,主動(dòng)貼合國(guó)產(chǎn)芯片的最佳性能點(diǎn),構(gòu)建了一個(gè)統(tǒng)一的生態(tài)坐標(biāo)系。