
DyWA的核心方法包括三個部分。首先,它采用標(biāo)準(zhǔn)的teacher-student框架,將全知信息訓(xùn)練的強(qiáng)化學(xué)習(xí)教師策略在線蒸餾給僅接收點(diǎn)云輸入的學(xué)生模型。該模型不僅學(xué)習(xí)動作輸出,還預(yù)測未來狀態(tài),相當(dāng)于讓機(jī)器人“想象”動作執(zhí)行后的效果。其次,DyWA引入了一種類似RMA思想的動態(tài)適應(yīng)模塊,通過分析歷史觀測和動作序列,推理出環(huán)境中隱含的物理屬性,使策略能夠動態(tài)調(diào)整“用力”或“穩(wěn)住”的程度。最后,DyWA設(shè)計上僅依賴單個深度相機(jī)獲取的點(diǎn)云作為輸入,經(jīng)過大規(guī)模域隨機(jī)化仿真訓(xùn)練后,能夠?qū)崿F(xiàn)從仿真到真實(shí)機(jī)器人的零樣本遷移。

在仿真測試中,DyWA在已知物體狀態(tài)(三視角點(diǎn)云)、未知物體狀態(tài)(三視角點(diǎn)云)和未知物體狀態(tài)(單視角點(diǎn)云)三種設(shè)置下均顯著優(yōu)于基線方法,實(shí)現(xiàn)了80%以上的成功率。真機(jī)實(shí)驗(yàn)結(jié)果也表明,DyWA能夠在各種條件下穩(wěn)健操作,如不同摩擦面、不同質(zhì)量分布的物體,并且具有強(qiáng)大的閉環(huán)自適應(yīng)能力。此外,DyWA還可以與抓取策略及視覺語言大模型協(xié)同工作,在用戶通過自然語言指定目標(biāo)位置后,DyWA首先將物體推至便于抓取的姿態(tài),再由抓取策略完成任務(wù),從而提升復(fù)雜場景下的整體成功率。
當(dāng)國民級游戲IP遇見千年非遺技藝,一場傳統(tǒng)與現(xiàn)代交融的文化盛宴正在上演
2025-04-23 07:57:17王者榮耀