機(jī)器人現(xiàn)在開始學(xué)會腦補(bǔ)未來了。螞蟻靈波連續(xù)第四天開源的項(xiàng)目是全球首個(gè)用于通用機(jī)器人控制的因果視頻-動(dòng)作世界模型,LingBot-VA。
以前的機(jī)器人主要采用“觀察-反應(yīng)”模式,看到什么就立刻做出反應(yīng)。而LingBot-VA則通過自回歸視頻預(yù)測,在動(dòng)手之前先推演未來幾秒的畫面。這種用想象力做決策的方式在機(jī)器人控制中還是相當(dāng)新穎的。
LingBot-VA的亮點(diǎn)還包括記憶不丟失和高效泛化。在執(zhí)行長序列任務(wù)時(shí),它能記住之前的步驟,狀態(tài)感知極強(qiáng)。只需幾十個(gè)演示樣本,它就能適應(yīng)新任務(wù),并且換到不同機(jī)器人上也能應(yīng)對自如。因此,LingBot-VA可以輕松完成如清洗細(xì)小透明試管這樣的高精度任務(wù)。
LingBot-VA在架構(gòu)設(shè)計(jì)上選擇了一條更進(jìn)一步的路徑。傳統(tǒng)VLA范式通常將視覺理解、物理變化推理和低層動(dòng)作控制放在同一個(gè)神經(jīng)網(wǎng)絡(luò)中處理,這被稱為表征纏繞。為了追求更高的樣本效率和更強(qiáng)的泛化能力,LingBot-VA提出了新的解題思路:先想象世界,再反推動(dòng)作。具體來說,它首先預(yù)測未來的視覺狀態(tài),然后基于視覺的變化反推出應(yīng)該執(zhí)行的動(dòng)作。
為了實(shí)現(xiàn)這一想法,螞蟻靈波團(tuán)隊(duì)采用了視頻與動(dòng)作的自回歸交錯(cuò)序列、Mixture-of-Transformers (MoT) 的分工協(xié)作以及部分去噪、異步推理和FDM 接地等工程設(shè)計(jì)。這些設(shè)計(jì)確保了模型能夠從過去的信息中學(xué)習(xí),同時(shí)保持長期記憶,提高計(jì)算效率,并防止模型的想象力脫離現(xiàn)實(shí)。
實(shí)驗(yàn)結(jié)果顯示,LingBot-VA在真機(jī)測試和仿真基準(zhǔn)上都表現(xiàn)優(yōu)異。它能夠穩(wěn)定完成長時(shí)序任務(wù)如準(zhǔn)備早餐和拆快遞,高精度任務(wù)如擦試管和擰螺絲,以及針對可變形物體的任務(wù)如折衣服和折褲子。在RoboTwin 2.0和LIBERO這兩個(gè)硬核仿真基準(zhǔn)上,LingBot-VA也取得了顯著成績,特別是在雙臂協(xié)作任務(wù)中,其成功率明顯高于其他模型。
當(dāng)黃曉明的魔術(shù)遇上具身智能的精密控制,智元機(jī)器人(AGIBOT)正試圖通過一場晚會,完成從“工業(yè)工具”到“生活伙伴”的轉(zhuǎn)變
2026-02-08 20:26:20機(jī)器人晚會機(jī)器人奇妙夜來了