擁有了能夠想象物理合理未來(lái)的能力還不夠,真正的智能體還需要知道如何將想象轉(zhuǎn)化為實(shí)際行動(dòng)。為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)開(kāi)發(fā)了Flow-Mask逆動(dòng)力學(xué)模型(FM-IDM)。這個(gè)模型的作用就像人類的小腦和運(yùn)動(dòng)皮層,負(fù)責(zé)將視覺(jué)想象轉(zhuǎn)化為具體的動(dòng)作指令。FM-IDM的工作原理相當(dāng)巧妙。它首先分析當(dāng)前狀態(tài)和預(yù)期狀態(tài)之間的視覺(jué)差異,然后利用光流技術(shù)來(lái)理解物體是如何移動(dòng)的。基于這些信息,F(xiàn)M-IDM能夠推斷出機(jī)器人需要執(zhí)行什么樣的動(dòng)作才能實(shí)現(xiàn)這種狀態(tài)轉(zhuǎn)換。為了訓(xùn)練這個(gè)模型,研究團(tuán)隊(duì)收集了64.6萬(wàn)個(gè)圖像-動(dòng)作對(duì),涵蓋219個(gè)不同的操作任務(wù)。
評(píng)估AI系統(tǒng)的物理理解能力是一個(gè)全新的挑戰(zhàn)。研究團(tuán)隊(duì)意識(shí)到,需要一套全新的評(píng)估標(biāo)準(zhǔn)來(lái)衡量AI的物理智能。于是他們開(kāi)發(fā)了WoWBench,這是第一個(gè)專門針對(duì)具身世界模型的綜合性基準(zhǔn)測(cè)試。WoWBench包含606個(gè)精心設(shè)計(jì)的測(cè)試樣本。每個(gè)測(cè)試都給AI一張初始圖片和一個(gè)文字指令,然后要求AI生成一段視頻來(lái)展示如何完成這個(gè)任務(wù)。評(píng)估體系分為四個(gè)核心維度:視頻質(zhì)量、規(guī)劃推理能力、物理規(guī)律理解和指令理解能力。結(jié)果顯示,WoW模型表現(xiàn)出色,在指令理解方面達(dá)到了96.53%的準(zhǔn)確率,在物理定律理解方面達(dá)到了80.16%的準(zhǔn)確率。
理論再完美,也需要實(shí)踐來(lái)驗(yàn)證。研究團(tuán)隊(duì)進(jìn)行了大量實(shí)驗(yàn)來(lái)測(cè)試WoW系統(tǒng)的實(shí)際效果。他們?cè)诜抡姝h(huán)境中進(jìn)行了大量測(cè)試,WoW展現(xiàn)出了令人印象深刻的泛化能力。即使面對(duì)訓(xùn)練時(shí)從未見(jiàn)過(guò)的場(chǎng)景,它也能生成物理上合理的預(yù)測(cè)。更重要的是,研究團(tuán)隊(duì)還進(jìn)行了真實(shí)機(jī)器人實(shí)驗(yàn)。他們將WoW生成的動(dòng)作指令輸入到真實(shí)的機(jī)器人中,測(cè)試這些指令是否能在現(xiàn)實(shí)世界中成功執(zhí)行。結(jié)果顯示,WoW生成的動(dòng)作計(jì)劃在現(xiàn)實(shí)世界中有很高的成功率。
2025世界人形機(jī)器人運(yùn)動(dòng)會(huì),在機(jī)器人異彩紛呈的表現(xiàn)背后,是相關(guān)技術(shù)的不斷迭代更新。
2025-08-18 07:50:28世界人形機(jī)器人運(yùn)動(dòng)會(huì)為創(chuàng)新找準(zhǔn)突破口