實驗結(jié)果最終表明,一個規(guī)模為300B的MoE大語言模型可以在性能較低的設(shè)備上有效訓(xùn)練,并在性能上達(dá)到與同規(guī)模的其他模型相當(dāng)?shù)乃?。與高性能設(shè)備相比,在預(yù)訓(xùn)練階段使用低規(guī)格硬件系統(tǒng)可顯著節(jié)約成本,計算開支約降低20%。
當(dāng)前最先進(jìn)的MoE模型在訓(xùn)練過程中嚴(yán)重依賴高性能AI加速器,這類高端硬件持續(xù)供不應(yīng)求。相比之下,性能較低的加速器更易獲得且單價更低。這種差異凸顯出建立一種能夠在異構(gòu)計算單元和分布式集群之間無縫切換的技術(shù)體系的必要性,從而優(yōu)化訓(xùn)練與推理的整體成本。
MoE模型的訓(xùn)練通常依賴于如英偉達(dá)所售GPU這類高性能芯片,這使得訓(xùn)練成本對許多中小企業(yè)而言過于高昂,限制了更廣泛的應(yīng)用。螞蟻集團一直在致力于提高大語言模型的訓(xùn)練效率,并突破這一限制。從其論文標(biāo)題即可看出,該公司將目標(biāo)定為“在無需高端GPU的情況下擴展模型規(guī)?!?。
這一方向與英偉達(dá)的戰(zhàn)略背道而馳。英偉達(dá)首席執(zhí)行官黃仁勛曾表示,即便更高效的模型出現(xiàn),對計算力的需求仍會持續(xù)增長,企業(yè)要實現(xiàn)更多營收將依賴更強大的芯片,而非通過更便宜的芯片來削減成本。他堅持打造具備更多處理核心、更高晶體管數(shù)量和更大內(nèi)存容量的大型GPU的戰(zhàn)略。
螞蟻集團的研究論文凸顯出中國AI領(lǐng)域技術(shù)創(chuàng)新和發(fā)展速度的加快。如果其研究成果屬實,這將表明中國在人工智能領(lǐng)域正逐步走向自主可控,特別是在尋求成本更低、計算效率更高的模型架構(gòu)來應(yīng)對英偉達(dá)芯片出口限制的背景下。
針對此事,螞蟻集團回應(yīng)稱,他們針對不同芯片持續(xù)調(diào)優(yōu),以降低AI應(yīng)用成本,目前取得了一定的進(jìn)展,也會逐步通過開源分享。
12月8日是支付寶和螞蟻集團的20歲生日。當(dāng)天,來自全球各地的部分員工在杭州螞蟻集團總部相聚,久未公開露面的馬云也在晚間現(xiàn)身園區(qū)。馬云表示,他是為了螞蟻未來的20年而來
2024-12-09 08:57:00馬云現(xiàn)身螞蟻集團20周年活動現(xiàn)場螞蟻集團Ling團隊近日發(fā)表了一篇技術(shù)成果論文,展示了兩款不同規(guī)模的MoE大語言模型——百靈輕量版(Ling-Lite)和百靈增強版(Ling-Plus)
2025-03-25 09:15:18曝螞蟻集團用國產(chǎn)芯片訓(xùn)練AI中國基金報記者曹雯璟2024年12月8日是支付寶和螞蟻集團的二十歲生日。
2024-12-09 07:49:33螞蟻重大宣布!又一次見證歷史