機(jī)器人版的科比、詹姆斯和C羅已經(jīng)出現(xiàn)。只見(jiàn)“科比”在賽場(chǎng)上后仰跳投,大殺四方?!癈羅”和“詹姆斯”也展示了各自的招牌慶祝動(dòng)作。這些還只是開(kāi)篇,這款人形機(jī)器人還能完成側(cè)跳、前跳、前踢、右踢等高難度動(dòng)作,甚至能深蹲和腿部拉伸。更令人驚艷的是,它還會(huì)跳APT舞。
與波士頓動(dòng)力的Atlas相比,如今的人形機(jī)器人已進(jìn)化到難以想象的程度。正如Figure創(chuàng)始人所說(shuō),人形機(jī)器人的iPhone時(shí)刻即將到來(lái)。那么,如何讓機(jī)器人成為“機(jī)器人界的科比”呢?
來(lái)自CMU和英偉達(dá)的研究團(tuán)隊(duì)提出了ASAP模型,這是一個(gè)“real2sim2real”的框架,能讓機(jī)器人掌握流暢且動(dòng)感的全身控制動(dòng)作。ASAP包含兩個(gè)階段:預(yù)訓(xùn)練和后訓(xùn)練。在預(yù)訓(xùn)練階段,通過(guò)重定向的人體數(shù)據(jù),在仿真環(huán)境中預(yù)訓(xùn)練運(yùn)動(dòng)跟蹤策略。在后訓(xùn)練階段,將這些策略部署到現(xiàn)實(shí)世界,并收集真實(shí)數(shù)據(jù),訓(xùn)練一個(gè)delta動(dòng)作模型來(lái)彌補(bǔ)動(dòng)力學(xué)差異。然后,將這個(gè)delta動(dòng)作模型集成到仿真器中,對(duì)預(yù)訓(xùn)練策略進(jìn)行微調(diào),使其更好地匹配現(xiàn)實(shí)世界的動(dòng)力學(xué)特性。
英偉達(dá)高級(jí)研究科學(xué)家Jim Fan表示,通過(guò)強(qiáng)化學(xué)習(xí),他們成功讓人形機(jī)器人模仿了C羅、詹姆斯和科比的動(dòng)作。這些神經(jīng)網(wǎng)絡(luò)模型正在英偉達(dá)GEAR實(shí)驗(yàn)室的真實(shí)硬件平臺(tái)上運(yùn)行。為了讓大家清晰觀賞每個(gè)流暢的動(dòng)作細(xì)節(jié),他們特意放慢了視頻速度。
ASAP模型采用“真實(shí)→仿真→真實(shí)”的方法,成功實(shí)現(xiàn)了人形機(jī)器人全身控制所需的超平滑動(dòng)態(tài)運(yùn)動(dòng)。首先在仿真環(huán)境對(duì)機(jī)器人進(jìn)行預(yù)訓(xùn)練,但面臨仿真與現(xiàn)實(shí)差距的問(wèn)題。解決方案是將預(yù)訓(xùn)練策略部署到實(shí)體機(jī)器人上采集數(shù)據(jù),隨后在仿真環(huán)境中回放這些數(shù)據(jù)。通過(guò)額外神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)差異參數(shù),對(duì)傳統(tǒng)物理引擎進(jìn)行“動(dòng)態(tài)校準(zhǔn)”,使機(jī)器人能在仿真環(huán)境中獲得近乎真實(shí)的訓(xùn)練體驗(yàn)。
未來(lái)屬于混合仿真時(shí)代,既繼承經(jīng)典仿真引擎的優(yōu)勢(shì),又融合現(xiàn)代神經(jīng)網(wǎng)絡(luò)的能力,實(shí)現(xiàn)兩者的協(xié)同進(jìn)化。一直以來(lái),sim2real是實(shí)現(xiàn)空間與具身智能的主要路徑之一,而real2sim2real直接打破了繁瑣的動(dòng)作微調(diào)難題,彌合了sim2real的差距,讓機(jī)器人能夠模仿各種類人的動(dòng)作。Jim Fan對(duì)此暢想道,2030年的人形機(jī)器人奧運(yùn)會(huì)一定會(huì)是一場(chǎng)盛宴。有網(wǎng)友期待地表示,真想看看它們打拳擊的表現(xiàn)。
由于仿真環(huán)境和現(xiàn)實(shí)世界的動(dòng)力學(xué)差異,人形機(jī)器人實(shí)現(xiàn)敏捷協(xié)調(diào)的全身運(yùn)動(dòng)仍是巨大挑戰(zhàn)?,F(xiàn)有方法如系統(tǒng)識(shí)別(SysID)和域隨機(jī)化(DR)通常需要大量時(shí)間調(diào)整參數(shù),或者生成的策略過(guò)于保守。ASAP是一個(gè)兩階段框架,旨在解決動(dòng)力學(xué)不匹配問(wèn)題,實(shí)現(xiàn)敏捷的人形機(jī)器人全身動(dòng)作。ASAP實(shí)現(xiàn)了許多以前難以做到的高難度動(dòng)作,展現(xiàn)了delta動(dòng)作學(xué)習(xí)在縮小仿真與現(xiàn)實(shí)動(dòng)力學(xué)差距方面的潛力。
具體步驟如下:先從真人視頻中提取動(dòng)作并重定向到機(jī)器人上,預(yù)訓(xùn)練多個(gè)運(yùn)動(dòng)跟蹤策略,生成真實(shí)世界的運(yùn)動(dòng)軌跡?;谡鎸?shí)世界軌跡數(shù)據(jù),訓(xùn)練Delta動(dòng)作模型,縮小仿真狀態(tài)與真實(shí)世界狀態(tài)之間的差異。Delta動(dòng)作模型訓(xùn)練完成后,將其集成到仿真器中,使仿真器能匹配真實(shí)世界的物理特性,隨后對(duì)之前預(yù)訓(xùn)練的運(yùn)動(dòng)跟蹤策略進(jìn)行微調(diào)。最后,直接在真實(shí)環(huán)境中部署微調(diào)后的策略,此時(shí)不再需要Delta動(dòng)作模型。
ASAP包括兩個(gè)階段:預(yù)訓(xùn)練階段和后訓(xùn)練階段。在預(yù)訓(xùn)練階段,研究團(tuán)隊(duì)將真人運(yùn)動(dòng)視頻作為數(shù)據(jù)來(lái)源,在仿真環(huán)境中訓(xùn)練動(dòng)作跟蹤策略。將這些運(yùn)動(dòng)數(shù)據(jù)重定向到人形機(jī)器人上,訓(xùn)練一個(gè)基于相位條件的運(yùn)動(dòng)跟蹤策略,讓機(jī)器人模仿重定向后的動(dòng)作。然而,如果將這一策略部署到真實(shí)硬件上,由于動(dòng)力學(xué)差異,機(jī)器人的性能會(huì)下降。為解決這一問(wèn)題,在后訓(xùn)練階段需要收集真實(shí)世界的運(yùn)行數(shù)據(jù),包括本體感知狀態(tài)和動(dòng)作捕捉系統(tǒng)記錄的位置信息。隨后,在仿真環(huán)境中回放這些數(shù)據(jù),動(dòng)力學(xué)差異以跟蹤誤差的形式表現(xiàn)出來(lái)。接著,訓(xùn)練一個(gè)delta動(dòng)作模型,通過(guò)縮小真實(shí)世界和仿真狀態(tài)的差異,學(xué)習(xí)如何補(bǔ)償這些偏差。最后,借助delta動(dòng)作模型對(duì)預(yù)訓(xùn)練的策略進(jìn)行微調(diào),使其更好地適應(yīng)真實(shí)世界的物理環(huán)境,從而實(shí)現(xiàn)更穩(wěn)定、敏捷的運(yùn)動(dòng)控制。
這項(xiàng)研究的貢獻(xiàn)在于提出ASAP框架,運(yùn)用強(qiáng)化學(xué)習(xí)和真實(shí)世界的數(shù)據(jù)來(lái)訓(xùn)練delta動(dòng)作模型,有效縮小了仿真與現(xiàn)實(shí)之間的差距。成功在真實(shí)環(huán)境部署全身控制策略,實(shí)現(xiàn)了不少以前人形機(jī)器人難以做到的動(dòng)作。實(shí)驗(yàn)表明,ASAP能夠有效減少動(dòng)力學(xué)不匹配問(wèn)題,讓機(jī)器人做出高度敏捷的動(dòng)作,同時(shí)顯著降低運(yùn)動(dòng)跟蹤誤差。為了促進(jìn)不同仿真器之間的平滑遷移,研究者開(kāi)發(fā)并開(kāi)源了一個(gè)多仿真器訓(xùn)練與評(píng)估代碼庫(kù),以加快后續(xù)研究。評(píng)估中,研究人員針對(duì)三種策略遷移進(jìn)行了廣泛的實(shí)驗(yàn)研究,結(jié)果顯示ASAP在所有指標(biāo)上都取得了顯著改進(jìn)。
在本屆CES上,英偉達(dá)發(fā)布了一系列面向AI時(shí)代的新產(chǎn)品和技術(shù),其中NVIDIA Cosmos平臺(tái)的推出尤為引人注目
2025-01-14 11:19:40英偉達(dá)的機(jī)器人軍團(tuán)近半來(lái)自中國(guó)原小鵬機(jī)器人運(yùn)控負(fù)責(zé)人達(dá)興燁在年后離職,加入了英偉達(dá)。目前,小鵬這一崗位由其他人員暫代,正在尋找合適人選
2025-02-26 15:57:02原小鵬機(jī)器人運(yùn)控負(fù)責(zé)人加入英偉達(dá)