中國(guó)電信發(fā)布單體稠密萬(wàn)億參數(shù)語(yǔ)義模型用了普通訓(xùn)練方案9%的算力資源

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2024-06-19 14:05:36 每日經(jīng)濟(jì)新聞

6月19日，中國(guó)電信人工智能研究院（TeleAI）與北京智源人工智能研究院合作，推出了全球首個(gè)單體稠密萬(wàn)億參數(shù)的語(yǔ)義模型——Tele-FLM-1T。這一成就使TeleAI成為國(guó)內(nèi)率先進(jìn)入稠密萬(wàn)億參數(shù)大模型領(lǐng)域的機(jī)構(gòu)之一。

針對(duì)大模型訓(xùn)練過(guò)程中高算力消耗的問(wèn)題，TeleAI與智源的研究團(tuán)隊(duì)采用了模型生長(zhǎng)和損失預(yù)測(cè)等創(chuàng)新技術(shù)，共同研發(fā)Tele-FLM系列模型。與業(yè)界常規(guī)訓(xùn)練方案相比，這一方法顯著降低了算力需求，僅使用了9%的算力資源。通過(guò)112臺(tái)A800服務(wù)器，在四個(gè)月的時(shí)間內(nèi)，團(tuán)隊(duì)成功完成了3個(gè)模型總計(jì)2.3萬(wàn)億tokens的訓(xùn)練任務(wù)。

中國(guó)電信表示，Tele-FLM-1T模型即將開放源代碼，旨在為行業(yè)提供萬(wàn)億稠密模型訓(xùn)練的技術(shù)參考案例，助力解決模型訓(xùn)練中可能出現(xiàn)的收斂難題。

作為率先布局并開放大模型的央企研究機(jī)構(gòu)，TeleAI在過(guò)去一年中展現(xiàn)了其在該領(lǐng)域的持續(xù)進(jìn)步。繼去年推出千億參數(shù)級(jí)別的“星辰”語(yǔ)義大模型之后，今年2月，“星辰”大模型通過(guò)了“境內(nèi)深度合成服務(wù)算法備案”。5月15日，根據(jù)相關(guān)公告，“星辰”大模型再度完成產(chǎn)品備案，這意味著它已具備正式對(duì)外提供生成式人工智能服務(wù)的資格。

在開源領(lǐng)域，TeleAI持續(xù)發(fā)力，相繼公布了7B、12B、52B參數(shù)規(guī)模的大模型。隨著TeleChat系列模型的問(wèn)世，TeleAI還對(duì)其多個(gè)大模型應(yīng)用項(xiàng)目實(shí)施了性能升級(jí)，例如，在某城市民服務(wù)項(xiàng)目中，集成TeleChat-52B模型后，整體服務(wù)效能提高了40%。

(責(zé)任編輯：盧其龍 CN070)

關(guān)閉

中國(guó)電信發(fā)布單體稠密萬(wàn)億參數(shù)語(yǔ)義模型 用了普通訓(xùn)練方案9%的算力資源

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

中國(guó)電信發(fā)布單體稠密萬(wàn)億參數(shù)語(yǔ)義模型用了普通訓(xùn)練方案9%的算力資源