中國(guó)電信發(fā)布單體稠密萬(wàn)億參數(shù)語(yǔ)義模型 用了普通訓(xùn)練方案9%的算力資源
6月19日,中國(guó)電信人工智能研究院(TeleAI)與北京智源人工智能研究院合作,推出了全球首個(gè)單體稠密萬(wàn)億參數(shù)的語(yǔ)義模型——Tele-FLM-1T。這一成就使TeleAI成為國(guó)內(nèi)率先進(jìn)入稠密萬(wàn)億參數(shù)大模型領(lǐng)域的機(jī)構(gòu)之一。
針對(duì)大模型訓(xùn)練過(guò)程中高算力消耗的問(wèn)題,TeleAI與智源的研究團(tuán)隊(duì)采用了模型生長(zhǎng)和損失預(yù)測(cè)等創(chuàng)新技術(shù),共同研發(fā)Tele-FLM系列模型。與業(yè)界常規(guī)訓(xùn)練方案相比,這一方法顯著降低了算力需求,僅使用了9%的算力資源。通過(guò)112臺(tái)A800服務(wù)器,在四個(gè)月的時(shí)間內(nèi),團(tuán)隊(duì)成功完成了3個(gè)模型總計(jì)2.3萬(wàn)億tokens的訓(xùn)練任務(wù)。
中國(guó)電信表示,Tele-FLM-1T模型即將開放源代碼,旨在為行業(yè)提供萬(wàn)億稠密模型訓(xùn)練的技術(shù)參考案例,助力解決模型訓(xùn)練中可能出現(xiàn)的收斂難題。
作為率先布局并開放大模型的央企研究機(jī)構(gòu),TeleAI在過(guò)去一年中展現(xiàn)了其在該領(lǐng)域的持續(xù)進(jìn)步。繼去年推出千億參數(shù)級(jí)別的“星辰”語(yǔ)義大模型之后,今年2月,“星辰”大模型通過(guò)了“境內(nèi)深度合成服務(wù)算法備案”。5月15日,根據(jù)相關(guān)公告,“星辰”大模型再度完成產(chǎn)品備案,這意味著它已具備正式對(duì)外提供生成式人工智能服務(wù)的資格。
在開源領(lǐng)域,TeleAI持續(xù)發(fā)力,相繼公布了7B、12B、52B參數(shù)規(guī)模的大模型。隨著TeleChat系列模型的問(wèn)世,TeleAI還對(duì)其多個(gè)大模型應(yīng)用項(xiàng)目實(shí)施了性能升級(jí),例如,在某城市民服務(wù)項(xiàng)目中,集成TeleChat-52B模型后,整體服務(wù)效能提高了40%。
6月7日,阿里云在技術(shù)博客上宣布了一個(gè)重要進(jìn)展:他們發(fā)布了名為Qwen2-72B的開源模型,這款模型在全球范圍內(nèi)以其卓越的性能脫穎而出
2024-06-07 10:49:47阿里云發(fā)布開源模型Qwen2