稚暉君搞了個“好東西”，網(wǎng)上的視頻也能拿來訓(xùn)練機器人了提高復(fù)雜任務(wù)成功率

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-03-12 09:14:05 差評XPIN

稚暉君搞了個“好東西”，網(wǎng)上的視頻也能拿來訓(xùn)練機器人了提高復(fù)雜任務(wù)成功率！上周五，稚暉君在微博預(yù)告了一波“好東西”。周一，智元機器人就展示了新產(chǎn)品。這款機器人能夠端茶倒水、煮咖啡，還能把面包放進面包機，涂抹果醬，并將面包端到面前。此外，它還可以充當(dāng)迎賓前臺。

不過，這些功能在現(xiàn)今的人形機器人視頻中已不罕見。真正值得關(guān)注的是智元機器人發(fā)布的基座大模型GO-1（Genie Operator-1）。這個大模型解決了人形機器人長期以來面臨的數(shù)據(jù)匱乏和泛化能力差的問題。

目前，人形機器人表現(xiàn)不佳的一個重要原因就是缺乏高質(zhì)量數(shù)據(jù)，而獲取這些數(shù)據(jù)的成本非常高。去年底，智元機器人開源了百萬真機數(shù)據(jù)集AgiBot World，涵蓋了超過100萬條軌跡、217個任務(wù)和106個場景。盡管如此，這些數(shù)據(jù)仍然不足以解決機器人泛化能力差的問題。

為此，智元機器人提出了新的ViLLA（Vision-Language-Latent-Action）架構(gòu)，這是GO-1大模型的核心。與傳統(tǒng)的VLA架構(gòu)不同，ViLLA架構(gòu)不僅依賴于大量標(biāo)注過的真機數(shù)據(jù)，還能利用互聯(lián)網(wǎng)上的大量人類視頻數(shù)據(jù)。這意味著基于GO-1大模型的機器人可以通過觀看視頻來學(xué)習(xí)相應(yīng)動作。

具體來說，ViLLA架構(gòu)由VLM（多模態(tài)大模型）和MoE（混合專家）組成。VLM處理輸入的視頻數(shù)據(jù)，潛在動作模型將其拆解成關(guān)鍵步驟，如“抓取”、“移動”和“喝水”。接著，隱式規(guī)劃器進一步細化這些步驟，生成更詳細的指令。最后，動作專家將這些指令轉(zhuǎn)換成機器人可以理解并執(zhí)行的動作信號。

相比傳統(tǒng)VLA架構(gòu)，ViLLA架構(gòu)在執(zhí)行復(fù)雜任務(wù)時表現(xiàn)更出色，且任務(wù)泛化能力更強。此外，ViLLA架構(gòu)生成的是通用動作標(biāo)記，不依賴特定硬件，更容易遷移到其他機器人平臺。

GO-1使機器人能夠從互聯(lián)網(wǎng)上的人類視頻數(shù)據(jù)中學(xué)習(xí)，并具備拆解任務(wù)的能力，提高了復(fù)雜任務(wù)的成功率和泛化能力。如果GO-1的效果如官方描述，這將是整個人形機器人行業(yè)的一大進步。至于智元是否會繼續(xù)開源GO-1，還有待觀察。聽說智元機器人明天還將公布一個驚喜，讓我們拭目以待。

(責(zé)任編輯：盧其龍 CN070)

關(guān)閉

稚暉君搞了個“好東西”，網(wǎng)上的視頻也能拿來訓(xùn)練機器人了 提高復(fù)雜任務(wù)成功率

相關(guān)新聞

今日熱點

頻道熱點

稚暉君搞了個“好東西”，網(wǎng)上的視頻也能拿來訓(xùn)練機器人了提高復(fù)雜任務(wù)成功率