另一家明星企業(yè)Groq代表了極端低延遲的方向。其核心產(chǎn)品LPU徹底消除了傳統(tǒng)GPU的“動(dòng)態(tài)調(diào)度”延遲,所有計(jì)算路徑在編譯階段就被預(yù)先規(guī)劃,可實(shí)現(xiàn)每秒數(shù)百個(gè)Tokens的推理速度,專為實(shí)時(shí)AI交互場景設(shè)計(jì)。
目前,TPU、Cerebras、Groq,再加上AWS的Trainium和微軟的Maia,共同構(gòu)成了崛起的非GPU陣營。AI算力的競爭格局正在從單極走向多元。面對這一局面,英偉達(dá)并未退縮。今年,它以200億美元獲得了Groq的非排他性技術(shù)許可。這筆交易本質(zhì)上是一次“智囊招募”,目的在于將LPU的低延遲優(yōu)勢納入英偉達(dá)生態(tài),推動(dòng)下一代異構(gòu)架構(gòu)的融合。未來,英偉達(dá)有望推出同時(shí)兼具訓(xùn)練與推理功能的復(fù)合芯片,以適應(yīng)日益多樣化的市場需求。
AI公司的策略也在變化。OpenAI、Meta、Anthropic都在實(shí)踐“多架構(gòu)混合策略”:訓(xùn)練階段仍依賴CUDA生態(tài)完善的GPU,而推理階段則更多使用TPU、Trainium或Cerebras,以降低成本。這種靈活組合不僅提高了資源利用率,也極大增強(qiáng)了企業(yè)的議價(jià)能力。
從商業(yè)模式上看,算力的售賣正在從硬件供給轉(zhuǎn)向“算力即服務(wù)”。谷歌、AWS和Cerebras都以調(diào)用次數(shù)或每百萬Tokens成本計(jì)費(fèi)??蛻絷P(guān)注的不再是使用哪種芯片,而是誰能提供更可預(yù)測、更具性價(jià)比的AI算力生產(chǎn)力。
未來的AI基礎(chǔ)設(shè)施將形成“異構(gòu)共生”的格局。GPU仍將在科研和模型訓(xùn)練領(lǐng)域保持優(yōu)勢,而TPU、LPU、WSE等專設(shè)架構(gòu)將成為AI推理的中堅(jiān)力量。競爭帶來的最大紅利是推理成本的下降與創(chuàng)新門檻的降低。AI不再只是巨頭的游戲,而會(huì)成為更多創(chuàng)業(yè)者可負(fù)擔(dān)的技術(shù)底座。
英偉達(dá)仍是算力世界的重要玩家,但它必須學(xué)會(huì)在更復(fù)雜的生態(tài)中共生。未來的競爭不再是硬件堆疊的較量,而是經(jīng)濟(jì)效率、生態(tài)整合與開放創(chuàng)新的較量。在這場從訓(xùn)練到推理的時(shí)代轉(zhuǎn)變中,AI的計(jì)算模式正邁入一個(gè)更加開放而多元的階段。對于英偉達(dá),這既是挑戰(zhàn),也是機(jī)會(huì);對于整個(gè)AI產(chǎn)業(yè)而言,這或許是一次重塑未來的真正起點(diǎn)。