機(jī)器人學(xué)會預(yù)測未來了讓想象力指導(dǎo)行動(dòng)

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2026-02-02 21:08:29 澎湃新聞

機(jī)器人現(xiàn)在開始學(xué)會腦補(bǔ)未來了。螞蟻靈波連續(xù)第四天開源的項(xiàng)目是全球首個(gè)用于通用機(jī)器人控制的因果視頻-動(dòng)作世界模型，LingBot-VA。

以前的機(jī)器人主要采用“觀察-反應(yīng)”模式，看到什么就立刻做出反應(yīng)。而LingBot-VA則通過自回歸視頻預(yù)測，在動(dòng)手之前先推演未來幾秒的畫面。這種用想象力做決策的方式在機(jī)器人控制中還是相當(dāng)新穎的。

LingBot-VA的亮點(diǎn)還包括記憶不丟失和高效泛化。在執(zhí)行長序列任務(wù)時(shí)，它能記住之前的步驟，狀態(tài)感知極強(qiáng)。只需幾十個(gè)演示樣本，它就能適應(yīng)新任務(wù)，并且換到不同機(jī)器人上也能應(yīng)對自如。因此，LingBot-VA可以輕松完成如清洗細(xì)小透明試管這樣的高精度任務(wù)。

LingBot-VA在架構(gòu)設(shè)計(jì)上選擇了一條更進(jìn)一步的路徑。傳統(tǒng)VLA范式通常將視覺理解、物理變化推理和低層動(dòng)作控制放在同一個(gè)神經(jīng)網(wǎng)絡(luò)中處理，這被稱為表征纏繞。為了追求更高的樣本效率和更強(qiáng)的泛化能力，LingBot-VA提出了新的解題思路：先想象世界，再反推動(dòng)作。具體來說，它首先預(yù)測未來的視覺狀態(tài)，然后基于視覺的變化反推出應(yīng)該執(zhí)行的動(dòng)作。

為了實(shí)現(xiàn)這一想法，螞蟻靈波團(tuán)隊(duì)采用了視頻與動(dòng)作的自回歸交錯(cuò)序列、Mixture-of-Transformers (MoT) 的分工協(xié)作以及部分去噪、異步推理和FDM 接地等工程設(shè)計(jì)。這些設(shè)計(jì)確保了模型能夠從過去的信息中學(xué)習(xí)，同時(shí)保持長期記憶，提高計(jì)算效率，并防止模型的想象力脫離現(xiàn)實(shí)。

實(shí)驗(yàn)結(jié)果顯示，LingBot-VA在真機(jī)測試和仿真基準(zhǔn)上都表現(xiàn)優(yōu)異。它能夠穩(wěn)定完成長時(shí)序任務(wù)如準(zhǔn)備早餐和拆快遞，高精度任務(wù)如擦試管和擰螺絲，以及針對可變形物體的任務(wù)如折衣服和折褲子。在RoboTwin 2.0和LIBERO這兩個(gè)硬核仿真基準(zhǔn)上，LingBot-VA也取得了顯著成績，特別是在雙臂協(xié)作任務(wù)中，其成功率明顯高于其他模型。

12 全文共 2 頁下一頁

關(guān)閉

機(jī)器人學(xué)會預(yù)測未來了 讓想象力指導(dǎo)行動(dòng)

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

機(jī)器人學(xué)會預(yù)測未來了讓想象力指導(dǎo)行動(dòng)