北京人形機(jī)器人創(chuàng)新中心提出WoW 讓AI真正理解物理世界(3)

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-10-21 10:00:36 搜狐網(wǎng)

擁有了能夠想象物理合理未來(lái)的能力還不夠，真正的智能體還需要知道如何將想象轉(zhuǎn)化為實(shí)際行動(dòng)。為了解決這個(gè)問(wèn)題，研究團(tuán)隊(duì)開(kāi)發(fā)了Flow-Mask逆動(dòng)力學(xué)模型（FM-IDM）。這個(gè)模型的作用就像人類的小腦和運(yùn)動(dòng)皮層，負(fù)責(zé)將視覺(jué)想象轉(zhuǎn)化為具體的動(dòng)作指令。FM-IDM的工作原理相當(dāng)巧妙。它首先分析當(dāng)前狀態(tài)和預(yù)期狀態(tài)之間的視覺(jué)差異，然后利用光流技術(shù)來(lái)理解物體是如何移動(dòng)的。基于這些信息，F(xiàn)M-IDM能夠推斷出機(jī)器人需要執(zhí)行什么樣的動(dòng)作才能實(shí)現(xiàn)這種狀態(tài)轉(zhuǎn)換。為了訓(xùn)練這個(gè)模型，研究團(tuán)隊(duì)收集了64.6萬(wàn)個(gè)圖像-動(dòng)作對(duì)，涵蓋219個(gè)不同的操作任務(wù)。

評(píng)估AI系統(tǒng)的物理理解能力是一個(gè)全新的挑戰(zhàn)。研究團(tuán)隊(duì)意識(shí)到，需要一套全新的評(píng)估標(biāo)準(zhǔn)來(lái)衡量AI的物理智能。于是他們開(kāi)發(fā)了WoWBench，這是第一個(gè)專門針對(duì)具身世界模型的綜合性基準(zhǔn)測(cè)試。WoWBench包含606個(gè)精心設(shè)計(jì)的測(cè)試樣本。每個(gè)測(cè)試都給AI一張初始圖片和一個(gè)文字指令，然后要求AI生成一段視頻來(lái)展示如何完成這個(gè)任務(wù)。評(píng)估體系分為四個(gè)核心維度：視頻質(zhì)量、規(guī)劃推理能力、物理規(guī)律理解和指令理解能力。結(jié)果顯示，WoW模型表現(xiàn)出色，在指令理解方面達(dá)到了96.53%的準(zhǔn)確率，在物理定律理解方面達(dá)到了80.16%的準(zhǔn)確率。

理論再完美，也需要實(shí)踐來(lái)驗(yàn)證。研究團(tuán)隊(duì)進(jìn)行了大量實(shí)驗(yàn)來(lái)測(cè)試WoW系統(tǒng)的實(shí)際效果。他們?cè)诜抡姝h(huán)境中進(jìn)行了大量測(cè)試，WoW展現(xiàn)出了令人印象深刻的泛化能力。即使面對(duì)訓(xùn)練時(shí)從未見(jiàn)過(guò)的場(chǎng)景，它也能生成物理上合理的預(yù)測(cè)。更重要的是，研究團(tuán)隊(duì)還進(jìn)行了真實(shí)機(jī)器人實(shí)驗(yàn)。他們將WoW生成的動(dòng)作指令輸入到真實(shí)的機(jī)器人中，測(cè)試這些指令是否能在現(xiàn)實(shí)世界中成功執(zhí)行。結(jié)果顯示，WoW生成的動(dòng)作計(jì)劃在現(xiàn)實(shí)世界中有很高的成功率。

首頁(yè)上一頁(yè)1 234 5 全文共 5 頁(yè)下一頁(yè)

關(guān)閉

北京人形機(jī)器人創(chuàng)新中心提出WoW 讓AI真正理解物理世界(3)

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)