機器人擰螺絲擰出“無影手” 精細(xì)操作大突破!都說機器人學(xué)習(xí)速度慢,精細(xì)動作做不好,影響了進(jìn)廠打螺絲的進(jìn)度?,F(xiàn)在這個問題可能不再是難題。
Physical Intelligence 公布了一項新進(jìn)展:他們借助一種名為「RL token」的方法,僅需十幾分鐘或幾小時的真實世界經(jīng)驗,就能讓機器人掌握插網(wǎng)線、擰微型螺絲、插充電線等極其精細(xì)的操作。
過去一年里,機器人已經(jīng)能完成不少粗略的工作,比如疊衣服、端盤子。但它們在高精度工作上表現(xiàn)不佳。例如,拿起螺絲刀很容易,但把螺絲刀嚴(yán)絲合縫地對準(zhǔn)一顆極小的螺絲卻非常困難。而在真實的工廠環(huán)境中,這種對精準(zhǔn)、靈巧和速度的要求是不能妥協(xié)的,也是體力勞動中最難的部分。
以前,如果想讓機器人學(xué)會這些精細(xì)操作,工程師需要重新訓(xùn)練整個大模型,這不僅計算量巨大,而且耗時長。Physical Intelligence 提出了一個聰明的方法:不重新訓(xùn)練整個主腦,而是增加一個專門負(fù)責(zé)精細(xì)動作的「外掛」——RL token。
通過這種方法,機器人的進(jìn)化速度顯著提高:每項任務(wù)中最精細(xì)的步驟速度提高了三倍,甚至比人類遠(yuǎn)程操縱機器人還要快。
Physical Intelligence 之前已經(jīng)證明,通過一種名為 Recap 的方法,VLA 模型能夠借助強化學(xué)習(xí)從經(jīng)驗中學(xué)習(xí)。不過,Recap 主要是為了解決長周期任務(wù)的大規(guī)模強化學(xué)習(xí)問題;而在實際應(yīng)用中,我們更希望機器人能在幾小時甚至幾分鐘內(nèi)快速攻克某項技能中的特別困難環(huán)節(jié)。
例如,如果一個機器人需要極其精準(zhǔn)地用螺絲刀進(jìn)行組裝,我們可以只微調(diào)「把螺絲刀對準(zhǔn)螺絲」這一個具體動作。這比把整個 VLA 大模型從頭到尾微調(diào)一遍要快得多。這種精準(zhǔn)針對性的自適應(yīng)訓(xùn)練,甚至可以在機器人正式部署上崗時邊干邊學(xué)。
理想情況下,這種能力的進(jìn)化應(yīng)該直接在機器人的「大腦」里進(jìn)行,并且能從每一次嘗試中獲取最多的學(xué)習(xí)經(jīng)驗。但在短短幾小時內(nèi)訓(xùn)練整個龐大復(fù)雜的 VLA 模型,無論是從算力還是實操角度來看都面臨巨大挑戰(zhàn)。
Physical Intelligence 的核心靈感是:與其死磕大模型,不如讓 VLA 變通一下,使其能配合一個極其小巧、可以實時更新的模型來進(jìn)行強化學(xué)習(xí)微調(diào)。他們訓(xùn)練 VLA(Pi 0.6)輸出一個「RL token」,它像是 VLA 內(nèi)部復(fù)雜思考過程的一份「極簡摘要」。然后把這個 RL token 作為輸入,喂給那個能夠進(jìn)行實時強化學(xué)習(xí)訓(xùn)練的小模型。
這個 RL token 會被交給 Actor 和 Critic 網(wǎng)絡(luò)使用。這兩個網(wǎng)絡(luò)采用了一種非常節(jié)省數(shù)據(jù)的 off-policy 強化學(xué)習(xí)方法進(jìn)行訓(xùn)練。由于處理的是高度壓縮的摘要信息,它們可以被設(shè)計成輕量級神經(jīng)網(wǎng)絡(luò),直接在機器人本體上進(jìn)行訓(xùn)練,每秒能更新幾百次。這種極高的響應(yīng)速度使強化學(xué)習(xí)能夠在機器人每次試錯后立刻調(diào)整和改進(jìn)行為。
研究者只需讓機器人在現(xiàn)實中積攢幾小時甚至幾分鐘的數(shù)據(jù),就能通過在線強化學(xué)習(xí)來訓(xùn)練小型的 Actor 和 Critic 網(wǎng)絡(luò)。為了提高效率,他們做了精心設(shè)計:在線強化學(xué)習(xí)的 Actor 網(wǎng)絡(luò)必須與 VLA 在相同動作空間中工作,保持一致,并能從有限的真實世界數(shù)據(jù)中高效學(xué)習(xí)。
具體做法包括預(yù)測「動作塊」、學(xué)會「修改」而非「推翻」、防止「抄作業(yè)」以及融入人類干預(yù)。這些選擇使得在線強化學(xué)習(xí)成為一個可復(fù)用的「通用配方」,不需要針對具體任務(wù)做專門的工程設(shè)計,就能直接掛載到預(yù)訓(xùn)練好的 VLA 模型上,應(yīng)對各種不同的任務(wù)。
研究者在四項需要極高精度的任務(wù)上測試了 RLT:用電動螺絲刀將微小的 M3 螺絲擰入機械臂、系緊扎帶、插入網(wǎng)線以及插入電源線?;A(chǔ)的 VLA 大模型在初期表現(xiàn)很好,但在最需要精度的階段會失敗。RLT 技術(shù)專門解決這個痛點,利用在線強化學(xué)習(xí)攻克這些難點。實際測試表明,機器人僅用 15 分鐘的真實世界數(shù)據(jù)就能優(yōu)化每個動作中最難的部分。
結(jié)果顯示,在所有四項任務(wù)中,RLT 在速度和成功率上都有顯著提升。特別是在「插網(wǎng)線」任務(wù)上,RLT 的執(zhí)行速度甚至超越了人類遠(yuǎn)程操作的速度。看來,機器人進(jìn)廠打工的進(jìn)度比預(yù)想中要快。
日本這個國家充滿了矛盾和糾結(jié),這種狀態(tài)體現(xiàn)在政治、經(jīng)濟、文化、歷史和安全等多個方面
2026-03-14 18:18:50媒體