DeepSeek正成為AI領(lǐng)域崛起的新星,打破了國內(nèi)大模型的原有格局。本周,DeepSeek發(fā)布了DeepSeek-R1,并同步開源了模型權(quán)重。DeepSeek-R1遵循MIT License,允許用戶通過蒸餾技術(shù)借助R1訓(xùn)練其他模型。
DeepSeek-R1上線了API,對用戶開放思維鏈輸出,設(shè)置model='deepseek-reasoner'即可調(diào)用。該模型在后訓(xùn)練階段大規(guī)模使用了強(qiáng)化學(xué)習(xí)技術(shù),在僅有極少標(biāo)注數(shù)據(jù)的情況下,極大提升了模型推理能力。在數(shù)學(xué)、代碼、自然語言推理等任務(wù)上,性能與OpenAI o1正式版相當(dāng)。同時,DeepSeek開源了兩個660B模型,并通過DeepSeek-R1的輸出蒸餾出六個小模型,其中32B和70B模型在多項能力上實現(xiàn)了對標(biāo)OpenAI o1-mini的效果。
DeepSeek-R1 API服務(wù)定價為每百萬輸入tokens 1元(緩存命中)/4元(緩存未命中),每百萬輸出tokens 16元。DeepSeek在美國科技界引起震動,不僅因為其性能與OpenAI的o1相當(dāng)且完全開源,還以極低成本實現(xiàn)了這一突破。知名投資人馬克·安德森表示,DeepSeek R1是他見過最令人驚嘆和印象深刻的突破之一,作為開源項目,這是給世界的一份重要禮物。
Scale AI創(chuàng)始人亞歷山大·王認(rèn)為,過去十年美國可能一直在人工智能競賽中領(lǐng)先于中國,但DeepSeek的發(fā)布可能會改變這一局面。DeepSeek-R1與GPT-4o和Claude 3.5 Sonnet相當(dāng),訓(xùn)練時計算量減少10倍。這表明在美國人休息時,中國人在工作,并以更便宜、更快、更強(qiáng)的產(chǎn)品迎頭趕上。
DeepSeek的動作讓Meta的生成式AI團(tuán)隊感到恐慌。Meta CEO扎克伯格宣布加速研發(fā)Llama 4,計劃投資650億美元擴(kuò)建數(shù)據(jù)中心,并部署130萬枚GPU,以確保2025年Meta AI成為全球領(lǐng)先模型。
消息人士稱,索尼早在數(shù)年前便啟動了下一代游戲主機(jī)PS6的芯片招標(biāo)程序,博通等公司被淘汰后,英特爾與AMD是最后兩位入圍決賽圈的選手。
2024-09-18 13:43:03AMD擊敗Intel獲PS6芯片合同