螞蟻技術(shù)研究院今日宣布推出LLaDA2.0系列離散擴散大語言模型,并同步公開了背后的技術(shù)報告,宣稱這是業(yè)內(nèi)首個100B擴散語言模型。LLaDA2.0包含MoE架構(gòu)的16B和100B兩個版本,將Diffusion模型的參數(shù)規(guī)模首次擴展到了100B量級。
該研究院表示,此次發(fā)布的模型不僅打破了擴散模型難以擴展的固有印象,還在代碼、數(shù)學和智能體任務(wù)上展現(xiàn)出了超越同級自回歸模型的性能。通過創(chuàng)新的Warmup-Stable-Decay持續(xù)預(yù)訓練策略,LLaDA2.0能夠無縫繼承現(xiàn)有自回歸模型的知識,避免了從頭訓練的高昂成本。結(jié)合置信度感知并行訓練和擴散模型版DPO,LLaDA2.0在保證生成質(zhì)量的同時,利用擴散模型的并行解碼優(yōu)勢,實現(xiàn)了相比自回歸模型2.1倍的推理加速,證明了在超大規(guī)模參數(shù)下,擴散模型不僅可行,而且更強、更快。
螞蟻技術(shù)研究院在知識理解、數(shù)學、代碼、推理及智能體等多個維度對模型進行了評估。結(jié)果顯示,LLaDA2.0在結(jié)構(gòu)化生成任務(wù)(如代碼)上具有顯著優(yōu)勢,并在其他領(lǐng)域與開源自回歸模型持平。LLaDA2.0的模型權(quán)重及相關(guān)訓練代碼已在Huggingface開源。
8月9日晚,中超聯(lián)賽第20輪比賽中,云南玉昆客場以1-5的比分不敵青島海牛。這場比賽對云南玉昆外援亞歷山德魯-約尼查來說意義非凡,這是他代表球隊出戰(zhàn)的第50場比賽
2025-08-10 11:42:30約尼查已代表云南玉昆出場50次記者昨天(6日)從國家電投集團獲悉,海陽核電4號機組核島鋼制安全殼模塊吊裝就位,反應(yīng)堆廠房順利實現(xiàn)封頂,標志著4號機組主設(shè)備安裝進入全新階段。
2025-09-07 09:46:57海陽核電二期工程里程碑節(jié)點完成過半