機器人擰螺絲擰出“無影手” 精細(xì)操作大突破

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2026-03-24 11:40:33 機器之心Pro

機器人擰螺絲擰出“無影手” 精細(xì)操作大突破！都說機器人學(xué)習(xí)速度慢，精細(xì)動作做不好，影響了進(jìn)廠打螺絲的進(jìn)度?，F(xiàn)在這個問題可能不再是難題。

Physical Intelligence 公布了一項新進(jìn)展：他們借助一種名為「RL token」的方法，僅需十幾分鐘或幾小時的真實世界經(jīng)驗，就能讓機器人掌握插網(wǎng)線、擰微型螺絲、插充電線等極其精細(xì)的操作。

過去一年里，機器人已經(jīng)能完成不少粗略的工作，比如疊衣服、端盤子。但它們在高精度工作上表現(xiàn)不佳。例如，拿起螺絲刀很容易，但把螺絲刀嚴(yán)絲合縫地對準(zhǔn)一顆極小的螺絲卻非常困難。而在真實的工廠環(huán)境中，這種對精準(zhǔn)、靈巧和速度的要求是不能妥協(xié)的，也是體力勞動中最難的部分。

以前，如果想讓機器人學(xué)會這些精細(xì)操作，工程師需要重新訓(xùn)練整個大模型，這不僅計算量巨大，而且耗時長。Physical Intelligence 提出了一個聰明的方法：不重新訓(xùn)練整個主腦，而是增加一個專門負(fù)責(zé)精細(xì)動作的「外掛」——RL token。

通過這種方法，機器人的進(jìn)化速度顯著提高：每項任務(wù)中最精細(xì)的步驟速度提高了三倍，甚至比人類遠(yuǎn)程操縱機器人還要快。

Physical Intelligence 之前已經(jīng)證明，通過一種名為 Recap 的方法，VLA 模型能夠借助強化學(xué)習(xí)從經(jīng)驗中學(xué)習(xí)。不過，Recap 主要是為了解決長周期任務(wù)的大規(guī)模強化學(xué)習(xí)問題；而在實際應(yīng)用中，我們更希望機器人能在幾小時甚至幾分鐘內(nèi)快速攻克某項技能中的特別困難環(huán)節(jié)。

例如，如果一個機器人需要極其精準(zhǔn)地用螺絲刀進(jìn)行組裝，我們可以只微調(diào)「把螺絲刀對準(zhǔn)螺絲」這一個具體動作。這比把整個 VLA 大模型從頭到尾微調(diào)一遍要快得多。這種精準(zhǔn)針對性的自適應(yīng)訓(xùn)練，甚至可以在機器人正式部署上崗時邊干邊學(xué)。

理想情況下，這種能力的進(jìn)化應(yīng)該直接在機器人的「大腦」里進(jìn)行，并且能從每一次嘗試中獲取最多的學(xué)習(xí)經(jīng)驗。但在短短幾小時內(nèi)訓(xùn)練整個龐大復(fù)雜的 VLA 模型，無論是從算力還是實操角度來看都面臨巨大挑戰(zhàn)。

Physical Intelligence 的核心靈感是：與其死磕大模型，不如讓 VLA 變通一下，使其能配合一個極其小巧、可以實時更新的模型來進(jìn)行強化學(xué)習(xí)微調(diào)。他們訓(xùn)練 VLA（Pi 0.6）輸出一個「RL token」，它像是 VLA 內(nèi)部復(fù)雜思考過程的一份「極簡摘要」。然后把這個 RL token 作為輸入，喂給那個能夠進(jìn)行實時強化學(xué)習(xí)訓(xùn)練的小模型。

這個 RL token 會被交給 Actor 和 Critic 網(wǎng)絡(luò)使用。這兩個網(wǎng)絡(luò)采用了一種非常節(jié)省數(shù)據(jù)的 off-policy 強化學(xué)習(xí)方法進(jìn)行訓(xùn)練。由于處理的是高度壓縮的摘要信息，它們可以被設(shè)計成輕量級神經(jīng)網(wǎng)絡(luò)，直接在機器人本體上進(jìn)行訓(xùn)練，每秒能更新幾百次。這種極高的響應(yīng)速度使強化學(xué)習(xí)能夠在機器人每次試錯后立刻調(diào)整和改進(jìn)行為。

研究者只需讓機器人在現(xiàn)實中積攢幾小時甚至幾分鐘的數(shù)據(jù)，就能通過在線強化學(xué)習(xí)來訓(xùn)練小型的 Actor 和 Critic 網(wǎng)絡(luò)。為了提高效率，他們做了精心設(shè)計：在線強化學(xué)習(xí)的 Actor 網(wǎng)絡(luò)必須與 VLA 在相同動作空間中工作，保持一致，并能從有限的真實世界數(shù)據(jù)中高效學(xué)習(xí)。

具體做法包括預(yù)測「動作塊」、學(xué)會「修改」而非「推翻」、防止「抄作業(yè)」以及融入人類干預(yù)。這些選擇使得在線強化學(xué)習(xí)成為一個可復(fù)用的「通用配方」，不需要針對具體任務(wù)做專門的工程設(shè)計，就能直接掛載到預(yù)訓(xùn)練好的 VLA 模型上，應(yīng)對各種不同的任務(wù)。

研究者在四項需要極高精度的任務(wù)上測試了 RLT：用電動螺絲刀將微小的 M3 螺絲擰入機械臂、系緊扎帶、插入網(wǎng)線以及插入電源線?；A(chǔ)的 VLA 大模型在初期表現(xiàn)很好，但在最需要精度的階段會失敗。RLT 技術(shù)專門解決這個痛點，利用在線強化學(xué)習(xí)攻克這些難點。實際測試表明，機器人僅用 15 分鐘的真實世界數(shù)據(jù)就能優(yōu)化每個動作中最難的部分。

結(jié)果顯示，在所有四項任務(wù)中，RLT 在速度和成功率上都有顯著提升。特別是在「插網(wǎng)線」任務(wù)上，RLT 的執(zhí)行速度甚至超越了人類遠(yuǎn)程操作的速度。看來，機器人進(jìn)廠打工的進(jìn)度比預(yù)想中要快。

(責(zé)任編輯：0882)

關(guān)閉

機器人擰螺絲擰出“無影手” 精細(xì)操作大突破

相關(guān)新聞

今日熱點

頻道熱點