稚暉君搞了個“好東西”,網(wǎng)上的視頻也能拿來訓(xùn)練機器人了 提高復(fù)雜任務(wù)成功率!上周五,稚暉君在微博預(yù)告了一波“好東西”。周一,智元機器人就展示了新產(chǎn)品。這款機器人能夠端茶倒水、煮咖啡,還能把面包放進面包機,涂抹果醬,并將面包端到面前。此外,它還可以充當(dāng)迎賓前臺。
不過,這些功能在現(xiàn)今的人形機器人視頻中已不罕見。真正值得關(guān)注的是智元機器人發(fā)布的基座大模型GO-1(Genie Operator-1)。這個大模型解決了人形機器人長期以來面臨的數(shù)據(jù)匱乏和泛化能力差的問題。
目前,人形機器人表現(xiàn)不佳的一個重要原因就是缺乏高質(zhì)量數(shù)據(jù),而獲取這些數(shù)據(jù)的成本非常高。去年底,智元機器人開源了百萬真機數(shù)據(jù)集AgiBot World,涵蓋了超過100萬條軌跡、217個任務(wù)和106個場景。盡管如此,這些數(shù)據(jù)仍然不足以解決機器人泛化能力差的問題。
為此,智元機器人提出了新的ViLLA(Vision-Language-Latent-Action)架構(gòu),這是GO-1大模型的核心。與傳統(tǒng)的VLA架構(gòu)不同,ViLLA架構(gòu)不僅依賴于大量標(biāo)注過的真機數(shù)據(jù),還能利用互聯(lián)網(wǎng)上的大量人類視頻數(shù)據(jù)。這意味著基于GO-1大模型的機器人可以通過觀看視頻來學(xué)習(xí)相應(yīng)動作。
具體來說,ViLLA架構(gòu)由VLM(多模態(tài)大模型)和MoE(混合專家)組成。VLM處理輸入的視頻數(shù)據(jù),潛在動作模型將其拆解成關(guān)鍵步驟,如“抓取”、“移動”和“喝水”。接著,隱式規(guī)劃器進一步細化這些步驟,生成更詳細的指令。最后,動作專家將這些指令轉(zhuǎn)換成機器人可以理解并執(zhí)行的動作信號。
相比傳統(tǒng)VLA架構(gòu),ViLLA架構(gòu)在執(zhí)行復(fù)雜任務(wù)時表現(xiàn)更出色,且任務(wù)泛化能力更強。此外,ViLLA架構(gòu)生成的是通用動作標(biāo)記,不依賴特定硬件,更容易遷移到其他機器人平臺。
GO-1使機器人能夠從互聯(lián)網(wǎng)上的人類視頻數(shù)據(jù)中學(xué)習(xí),并具備拆解任務(wù)的能力,提高了復(fù)雜任務(wù)的成功率和泛化能力。如果GO-1的效果如官方描述,這將是整個人形機器人行業(yè)的一大進步。至于智元是否會繼續(xù)開源GO-1,還有待觀察。聽說智元機器人明天還將公布一個驚喜,讓我們拭目以待。
稚暉君在B站發(fā)布了一段視頻,展示了智元機器人搭載情感計算引擎的雙足智能交互人形機器人“靈犀 X2”。這款機器人集成了運動、交互和作業(yè)三大智能功能
2025-03-11 10:49:39稚暉君發(fā)布最新人形機器人