螞蟻集團(tuán)聯(lián)合清華大學(xué)發(fā)布開(kāi)源強(qiáng)化學(xué)習(xí)訓(xùn)練框架AReaL v1.0穩(wěn)定版 Agent一鍵接入RL訓(xùn)練!螞蟻集團(tuán)與清華大學(xué)聯(lián)合發(fā)布了開(kāi)源強(qiáng)化學(xué)習(xí)訓(xùn)練框架AReaL v1.0的穩(wěn)定版。這一版本主打“Agent一鍵接入RL訓(xùn)練”,無(wú)需修改代碼,兼容各種Agent框架,讓智能體強(qiáng)化學(xué)習(xí)訓(xùn)練變得簡(jiǎn)單易用。
自2026年初以來(lái),智能體技術(shù)持續(xù)升溫,以LangChain、Claude Code和OpenClaw為代表的智能體框架迅速發(fā)展,但也面臨兩大挑戰(zhàn)。首先是接入訓(xùn)練的成本高,因?yàn)楝F(xiàn)有智能體框架接口不統(tǒng)一,每次接入都需要編寫大量適配代碼。其次是大多數(shù)智能體缺乏持續(xù)進(jìn)化的能力,它們的能力主要取決于底層模型在訓(xùn)練階段習(xí)得的固定權(quán)重,部署后無(wú)法再針對(duì)特定場(chǎng)景進(jìn)行優(yōu)化,能力上限在交付時(shí)已經(jīng)確定。
AReaL是首個(gè)全異步訓(xùn)推解耦的大模型強(qiáng)化學(xué)習(xí)訓(xùn)練系統(tǒng),它使智能體能夠在真實(shí)任務(wù)交互中獲得反饋并持續(xù)優(yōu)化決策。v1.0版本通過(guò)在智能體與訓(xùn)練系統(tǒng)之間加入Proxy Worker中轉(zhuǎn)層,實(shí)現(xiàn)了任意Agent零改造接入RL訓(xùn)練。開(kāi)發(fā)者只需更改一個(gè)請(qǐng)求地址即可完成接入。
近日,全球人工智能領(lǐng)域接連迎來(lái)重要進(jìn)展
2026-01-31 16:42:15國(guó)產(chǎn)開(kāi)源世界模型來(lái)了螞蟻集團(tuán)旗下具身智能公司靈波科技本周接連開(kāi)源了四個(gè)大模型。1月30日,螞蟻靈波科技宣布開(kāi)源具身世界模型LingBot-VA
2026-02-03 08:17:35螞蟻靈波LingBot-World正式全棧開(kāi)源