國產(chǎn)AI模型再次取得突破。3月24日,螞蟻集團宣布使用國產(chǎn)芯片開發(fā)了一種訓練人工智能模型的技術(shù),可將成本降低20%。知情人士透露,螞蟻集團采用國產(chǎn)芯片,并基于“專家混合”機器學習方法來訓練模型,效果與英偉達H800等芯片相當。
這一進展表明螞蟻集團加入了AI領域的競爭。自DeepSeek展示出能夠以遠低于OpenAI和谷歌的成本訓練強大模型以來,競爭加速升級。這也反映出中國企業(yè)正積極嘗試用本土替代方案取代英偉達的高端半導體產(chǎn)品,盡管H800并非英偉達最頂級的芯片。
近期,螞蟻集團Ling團隊發(fā)表了最新技術(shù)成果論文《每一個FLOP都至關重要:無需高級GPU即可擴展3000億參數(shù)混合專家LING大模型》。論文提到,近年來,隨著大型語言模型的快速發(fā)展,學術(shù)界和產(chǎn)業(yè)界圍繞通用人工智能展開了廣泛討論。盡管稠密模型取得了顯著進展,專家混合模型在某些特定任務中已展現(xiàn)出優(yōu)于傳統(tǒng)稠密模型的性能。
然而,MoE模型的訓練通常依賴于高性能計算資源,其高昂的成本限制了其在資源受限環(huán)境中的廣泛應用。因此,該研究旨在提出創(chuàng)新的訓練策略,使LLM在資源和預算受限的情況下也能實現(xiàn)高效訓練,推動AI技術(shù)的普惠發(fā)展。
為了給業(yè)界提供一種適用于資源受限場景的模型訓練新路徑,論文介紹了兩款開源MoE模型:Ling-Lite(總參數(shù)16.8B,激活參數(shù)2.75B)與Ling-Plus(總參數(shù)290B,激活參數(shù)28.8B),重點展示其探索與優(yōu)化過程?;趦?yōu)化技術(shù),螞蟻集團開發(fā)并開源了Ling系列MoE模型,在資源成本與模型性能之間取得良好平衡。例如,Ling-Plus模型在五種不同硬件配置下完成9萬億token的預訓練任務。若使用高性能硬件設備訓練1萬億token,預計成本為635萬元人民幣;而使用低規(guī)格硬件系統(tǒng)則成本約為508萬元,節(jié)省近20%。這證明即使在低性能設備上,也能實現(xiàn)大規(guī)模MoE模型的有效訓練,提升了基礎模型開發(fā)在計算資源選擇上的靈活性與性價比。
12月8日是支付寶和螞蟻集團的20歲生日。當天,來自全球各地的部分員工在杭州螞蟻集團總部相聚,久未公開露面的馬云也在晚間現(xiàn)身園區(qū)。馬云表示,他是為了螞蟻未來的20年而來
2024-12-09 08:57:00馬云現(xiàn)身螞蟻集團20周年活動現(xiàn)場螞蟻集團Ling團隊近日發(fā)表了一篇技術(shù)成果論文,展示了兩款不同規(guī)模的MoE大語言模型——百靈輕量版(Ling-Lite)和百靈增強版(Ling-Plus)
2025-03-25 09:15:18曝螞蟻集團用國產(chǎn)芯片訓練AI中國基金報記者曹雯璟2024年12月8日是支付寶和螞蟻集團的二十歲生日。
2024-12-09 07:49:33螞蟻重大宣布!又一次見證歷史