機(jī)器人擰螺絲擰出“無影手” 精細(xì)操作大突破!都說機(jī)器人學(xué)習(xí)速度慢,精細(xì)動(dòng)作做不好,影響了進(jìn)廠打螺絲的進(jìn)度?,F(xiàn)在這個(gè)問題可能不再是難題。
Physical Intelligence 公布了一項(xiàng)新進(jìn)展:他們借助一種名為「RL token」的方法,僅需十幾分鐘或幾小時(shí)的真實(shí)世界經(jīng)驗(yàn),就能讓機(jī)器人掌握插網(wǎng)線、擰微型螺絲、插充電線等極其精細(xì)的操作。
過去一年里,機(jī)器人已經(jīng)能完成不少粗略的工作,比如疊衣服、端盤子。但它們?cè)诟呔裙ぷ魃媳憩F(xiàn)不佳。例如,拿起螺絲刀很容易,但把螺絲刀嚴(yán)絲合縫地對(duì)準(zhǔn)一顆極小的螺絲卻非常困難。而在真實(shí)的工廠環(huán)境中,這種對(duì)精準(zhǔn)、靈巧和速度的要求是不能妥協(xié)的,也是體力勞動(dòng)中最難的部分。
以前,如果想讓機(jī)器人學(xué)會(huì)這些精細(xì)操作,工程師需要重新訓(xùn)練整個(gè)大模型,這不僅計(jì)算量巨大,而且耗時(shí)長。Physical Intelligence 提出了一個(gè)聰明的方法:不重新訓(xùn)練整個(gè)主腦,而是增加一個(gè)專門負(fù)責(zé)精細(xì)動(dòng)作的「外掛」——RL token。
通過這種方法,機(jī)器人的進(jìn)化速度顯著提高:每項(xiàng)任務(wù)中最精細(xì)的步驟速度提高了三倍,甚至比人類遠(yuǎn)程操縱機(jī)器人還要快。
Physical Intelligence 之前已經(jīng)證明,通過一種名為 Recap 的方法,VLA 模型能夠借助強(qiáng)化學(xué)習(xí)從經(jīng)驗(yàn)中學(xué)習(xí)。不過,Recap 主要是為了解決長周期任務(wù)的大規(guī)模強(qiáng)化學(xué)習(xí)問題;而在實(shí)際應(yīng)用中,我們更希望機(jī)器人能在幾小時(shí)甚至幾分鐘內(nèi)快速攻克某項(xiàng)技能中的特別困難環(huán)節(jié)。
例如,如果一個(gè)機(jī)器人需要極其精準(zhǔn)地用螺絲刀進(jìn)行組裝,我們可以只微調(diào)「把螺絲刀對(duì)準(zhǔn)螺絲」這一個(gè)具體動(dòng)作。這比把整個(gè) VLA 大模型從頭到尾微調(diào)一遍要快得多。這種精準(zhǔn)針對(duì)性的自適應(yīng)訓(xùn)練,甚至可以在機(jī)器人正式部署上崗時(shí)邊干邊學(xué)。
日本這個(gè)國家充滿了矛盾和糾結(jié),這種狀態(tài)體現(xiàn)在政治、經(jīng)濟(jì)、文化、歷史和安全等多個(gè)方面
2026-03-14 18:18:50媒體