英偉達(dá)機(jī)器人跳舞驚艷全網(wǎng) ASAP技術(shù)引領(lǐng)未來(lái)

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-02-05 17:20:08 新浪

機(jī)器人版的科比、詹姆斯和C羅已經(jīng)出現(xiàn)。只見(jiàn)“科比”在賽場(chǎng)上后仰跳投，大殺四方?！癈羅”和“詹姆斯”也展示了各自的招牌慶祝動(dòng)作。這些還只是開(kāi)篇，這款人形機(jī)器人還能完成側(cè)跳、前跳、前踢、右踢等高難度動(dòng)作，甚至能深蹲和腿部拉伸。更令人驚艷的是，它還會(huì)跳APT舞。

與波士頓動(dòng)力的Atlas相比，如今的人形機(jī)器人已進(jìn)化到難以想象的程度。正如Figure創(chuàng)始人所說(shuō)，人形機(jī)器人的iPhone時(shí)刻即將到來(lái)。那么，如何讓機(jī)器人成為“機(jī)器人界的科比”呢？

來(lái)自CMU和英偉達(dá)的研究團(tuán)隊(duì)提出了ASAP模型，這是一個(gè)“real2sim2real”的框架，能讓機(jī)器人掌握流暢且動(dòng)感的全身控制動(dòng)作。ASAP包含兩個(gè)階段：預(yù)訓(xùn)練和后訓(xùn)練。在預(yù)訓(xùn)練階段，通過(guò)重定向的人體數(shù)據(jù)，在仿真環(huán)境中預(yù)訓(xùn)練運(yùn)動(dòng)跟蹤策略。在后訓(xùn)練階段，將這些策略部署到現(xiàn)實(shí)世界，并收集真實(shí)數(shù)據(jù)，訓(xùn)練一個(gè)delta動(dòng)作模型來(lái)彌補(bǔ)動(dòng)力學(xué)差異。然后，將這個(gè)delta動(dòng)作模型集成到仿真器中，對(duì)預(yù)訓(xùn)練策略進(jìn)行微調(diào)，使其更好地匹配現(xiàn)實(shí)世界的動(dòng)力學(xué)特性。

英偉達(dá)高級(jí)研究科學(xué)家Jim Fan表示，通過(guò)強(qiáng)化學(xué)習(xí)，他們成功讓人形機(jī)器人模仿了C羅、詹姆斯和科比的動(dòng)作。這些神經(jīng)網(wǎng)絡(luò)模型正在英偉達(dá)GEAR實(shí)驗(yàn)室的真實(shí)硬件平臺(tái)上運(yùn)行。為了讓大家清晰觀賞每個(gè)流暢的動(dòng)作細(xì)節(jié)，他們特意放慢了視頻速度。

ASAP模型采用“真實(shí)→仿真→真實(shí)”的方法，成功實(shí)現(xiàn)了人形機(jī)器人全身控制所需的超平滑動(dòng)態(tài)運(yùn)動(dòng)。首先在仿真環(huán)境對(duì)機(jī)器人進(jìn)行預(yù)訓(xùn)練，但面臨仿真與現(xiàn)實(shí)差距的問(wèn)題。解決方案是將預(yù)訓(xùn)練策略部署到實(shí)體機(jī)器人上采集數(shù)據(jù)，隨后在仿真環(huán)境中回放這些數(shù)據(jù)。通過(guò)額外神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)差異參數(shù)，對(duì)傳統(tǒng)物理引擎進(jìn)行“動(dòng)態(tài)校準(zhǔn)”，使機(jī)器人能在仿真環(huán)境中獲得近乎真實(shí)的訓(xùn)練體驗(yàn)。

未來(lái)屬于混合仿真時(shí)代，既繼承經(jīng)典仿真引擎的優(yōu)勢(shì)，又融合現(xiàn)代神經(jīng)網(wǎng)絡(luò)的能力，實(shí)現(xiàn)兩者的協(xié)同進(jìn)化。一直以來(lái)，sim2real是實(shí)現(xiàn)空間與具身智能的主要路徑之一，而real2sim2real直接打破了繁瑣的動(dòng)作微調(diào)難題，彌合了sim2real的差距，讓機(jī)器人能夠模仿各種類人的動(dòng)作。Jim Fan對(duì)此暢想道，2030年的人形機(jī)器人奧運(yùn)會(huì)一定會(huì)是一場(chǎng)盛宴。有網(wǎng)友期待地表示，真想看看它們打拳擊的表現(xiàn)。

由于仿真環(huán)境和現(xiàn)實(shí)世界的動(dòng)力學(xué)差異，人形機(jī)器人實(shí)現(xiàn)敏捷協(xié)調(diào)的全身運(yùn)動(dòng)仍是巨大挑戰(zhàn)?，F(xiàn)有方法如系統(tǒng)識(shí)別（SysID）和域隨機(jī)化（DR）通常需要大量時(shí)間調(diào)整參數(shù)，或者生成的策略過(guò)于保守。ASAP是一個(gè)兩階段框架，旨在解決動(dòng)力學(xué)不匹配問(wèn)題，實(shí)現(xiàn)敏捷的人形機(jī)器人全身動(dòng)作。ASAP實(shí)現(xiàn)了許多以前難以做到的高難度動(dòng)作，展現(xiàn)了delta動(dòng)作學(xué)習(xí)在縮小仿真與現(xiàn)實(shí)動(dòng)力學(xué)差距方面的潛力。

具體步驟如下：先從真人視頻中提取動(dòng)作并重定向到機(jī)器人上，預(yù)訓(xùn)練多個(gè)運(yùn)動(dòng)跟蹤策略，生成真實(shí)世界的運(yùn)動(dòng)軌跡?；谡鎸?shí)世界軌跡數(shù)據(jù)，訓(xùn)練Delta動(dòng)作模型，縮小仿真狀態(tài)與真實(shí)世界狀態(tài)之間的差異。Delta動(dòng)作模型訓(xùn)練完成后，將其集成到仿真器中，使仿真器能匹配真實(shí)世界的物理特性，隨后對(duì)之前預(yù)訓(xùn)練的運(yùn)動(dòng)跟蹤策略進(jìn)行微調(diào)。最后，直接在真實(shí)環(huán)境中部署微調(diào)后的策略，此時(shí)不再需要Delta動(dòng)作模型。

ASAP包括兩個(gè)階段：預(yù)訓(xùn)練階段和后訓(xùn)練階段。在預(yù)訓(xùn)練階段，研究團(tuán)隊(duì)將真人運(yùn)動(dòng)視頻作為數(shù)據(jù)來(lái)源，在仿真環(huán)境中訓(xùn)練動(dòng)作跟蹤策略。將這些運(yùn)動(dòng)數(shù)據(jù)重定向到人形機(jī)器人上，訓(xùn)練一個(gè)基于相位條件的運(yùn)動(dòng)跟蹤策略，讓機(jī)器人模仿重定向后的動(dòng)作。然而，如果將這一策略部署到真實(shí)硬件上，由于動(dòng)力學(xué)差異，機(jī)器人的性能會(huì)下降。為解決這一問(wèn)題，在后訓(xùn)練階段需要收集真實(shí)世界的運(yùn)行數(shù)據(jù)，包括本體感知狀態(tài)和動(dòng)作捕捉系統(tǒng)記錄的位置信息。隨后，在仿真環(huán)境中回放這些數(shù)據(jù)，動(dòng)力學(xué)差異以跟蹤誤差的形式表現(xiàn)出來(lái)。接著，訓(xùn)練一個(gè)delta動(dòng)作模型，通過(guò)縮小真實(shí)世界和仿真狀態(tài)的差異，學(xué)習(xí)如何補(bǔ)償這些偏差。最后，借助delta動(dòng)作模型對(duì)預(yù)訓(xùn)練的策略進(jìn)行微調(diào)，使其更好地適應(yīng)真實(shí)世界的物理環(huán)境，從而實(shí)現(xiàn)更穩(wěn)定、敏捷的運(yùn)動(dòng)控制。

這項(xiàng)研究的貢獻(xiàn)在于提出ASAP框架，運(yùn)用強(qiáng)化學(xué)習(xí)和真實(shí)世界的數(shù)據(jù)來(lái)訓(xùn)練delta動(dòng)作模型，有效縮小了仿真與現(xiàn)實(shí)之間的差距。成功在真實(shí)環(huán)境部署全身控制策略，實(shí)現(xiàn)了不少以前人形機(jī)器人難以做到的動(dòng)作。實(shí)驗(yàn)表明，ASAP能夠有效減少動(dòng)力學(xué)不匹配問(wèn)題，讓機(jī)器人做出高度敏捷的動(dòng)作，同時(shí)顯著降低運(yùn)動(dòng)跟蹤誤差。為了促進(jìn)不同仿真器之間的平滑遷移，研究者開(kāi)發(fā)并開(kāi)源了一個(gè)多仿真器訓(xùn)練與評(píng)估代碼庫(kù)，以加快后續(xù)研究。評(píng)估中，研究人員針對(duì)三種策略遷移進(jìn)行了廣泛的實(shí)驗(yàn)研究，結(jié)果顯示ASAP在所有指標(biāo)上都取得了顯著改進(jìn)。

(責(zé)任編輯：張佳鑫 0764)

關(guān)閉

英偉達(dá)機(jī)器人跳舞驚艷全網(wǎng) ASAP技術(shù)引領(lǐng)未來(lái)

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)