人形機(jī)器人“背后有人”嗎?至少在過去十年的人形機(jī)器人發(fā)展歷程中,這一疑問始終被公眾廣泛討論。前不久,小鵬汽車的人形機(jī)器人IRON以近乎荒誕的方式“破圈”,被懷疑“里面藏人”,小鵬方面不得不對(duì)IRON先“扒皮”、后“剪腿”以證清白。
“背后有真人”已被證偽,但在大眾認(rèn)知中,人形機(jī)器人確實(shí)“背后有人”。在展會(huì)、運(yùn)動(dòng)會(huì)甚至商場(chǎng)中,人們常常看到人形機(jī)器人在跑步、跳舞、翻跟頭時(shí),往往會(huì)有一名手拿遙控器的人類工程師在一旁操作。在北京探訪參觀具身智能訓(xùn)練場(chǎng)時(shí)也注意到,由真人來遙控或遙操作,是機(jī)器人訓(xùn)練學(xué)習(xí)、收集真實(shí)數(shù)據(jù)的常見方式。
如何科學(xué)地看待人形機(jī)器人“背后有人”的現(xiàn)象?自今年以來,人形機(jī)器人在運(yùn)動(dòng)能力上進(jìn)步明顯,相較以往只能展示簡(jiǎn)單的肢體動(dòng)作,現(xiàn)在能夠進(jìn)行長(zhǎng)距離跑步、翻跟頭、爬山、搏擊、踢足球、拖動(dòng)卡車等較復(fù)雜的運(yùn)動(dòng)展示。不少品牌企業(yè)在展示人形機(jī)器人產(chǎn)品能力時(shí),會(huì)作出“全自主”“非遙控”等說明。人形機(jī)器人的自主化能力正在提升,最典型的代表是在人形機(jī)器人半程馬拉松比賽中,分別斬獲冠軍、亞軍的“選手”——天工Ultra、松延動(dòng)力N2均是非人工遙控、自主化完賽的,由此驗(yàn)證了機(jī)器人的自主化能力。
需要說明的是,從驗(yàn)證到穩(wěn)定成熟還需要一段距離,因此當(dāng)下人形機(jī)器人仍處在“背后有人”的階段,一類是遙控,指通過遙控器或者在電腦后臺(tái)發(fā)布指令,另一類則是復(fù)雜度更高的“遙操作”。星動(dòng)紀(jì)元?jiǎng)?chuàng)始人、清華大學(xué)交叉信息研究院助理教授陳建宇解釋道,遙控不等于遙操作,簡(jiǎn)單來說,前者是更為基礎(chǔ)的“指令傳遞”,設(shè)備僅執(zhí)行預(yù)設(shè)動(dòng)作,而遙操作是由人通過更復(fù)雜的裝置——如VR、動(dòng)作捕捉傳感器設(shè)備、力反饋控制器等,來實(shí)時(shí)控制機(jī)器人完成連續(xù)的、高度精細(xì)動(dòng)作,被“遙操作”控制的機(jī)器人或靈巧手就成為人“身體的延伸”。當(dāng)前業(yè)內(nèi)有共識(shí),認(rèn)為模型與算法決定了機(jī)器人的能力上限,“遙操作”是進(jìn)行機(jī)器人數(shù)據(jù)采集與模型訓(xùn)練的重要工具。
技術(shù)人員通過“遙操作”的方式控制機(jī)器人,實(shí)質(zhì)是“手把手”教導(dǎo)機(jī)器人,這些高質(zhì)量數(shù)據(jù)將被用于模型迭代,最終部署至機(jī)器人,從而實(shí)現(xiàn)從“人類示教”到“自主執(zhí)行”的閉環(huán)。擎朗智能戰(zhàn)略技術(shù)官劉斐表示,遙操作在現(xiàn)階段是常規(guī)的訓(xùn)練方式,通過遙操作采集的數(shù)據(jù)具有較高的真實(shí)度與任務(wù)相關(guān)性。以擎朗智能自身為例,一方面通過在真實(shí)商業(yè)環(huán)境中部署機(jī)器人在崗位積累真實(shí)場(chǎng)景數(shù)據(jù),另一方面通過遙操作及其他方式進(jìn)行高效訓(xùn)練,持續(xù)拓展機(jī)器人的能力邊界,以快速適配新場(chǎng)景,不斷復(fù)制“崗位化”工作模式流程,從而實(shí)現(xiàn)更廣泛的落地場(chǎng)景應(yīng)用。
“遙操作”是將人的技巧經(jīng)驗(yàn)與判斷傳遞給機(jī)器、用于訓(xùn)練具身智能的重要數(shù)據(jù)采集方式。相比遙操作來說,通過遙控器來操作、控制機(jī)器人則更容易理解,且廣為大眾所見。一位從事機(jī)器人租賃及線下活動(dòng)營(yíng)銷業(yè)務(wù)的人士表示,人形機(jī)器人在線下活動(dòng)中很受歡迎,要向觀眾展示機(jī)器人的功能,有時(shí)也要讓觀眾參與互動(dòng)中,所以常使用遙控器來控制機(jī)器人。“坦白講,主要是因?yàn)檫b控器簡(jiǎn)單,很容易上手?,F(xiàn)在有些機(jī)器人也能不用遙控,但是整體來說,硬件性能不夠穩(wěn)定,再加上像展覽會(huì)、戶外場(chǎng)地的網(wǎng)絡(luò)環(huán)境也存在不確定性?!?/p>
除此之外,參加過2025世界人形機(jī)器人運(yùn)動(dòng)會(huì)的兩位工程師也解釋,機(jī)器人自主跑步是能夠?qū)崿F(xiàn)的,但在競(jìng)技比賽中大多使用的仍是遙控操作,這樣機(jī)器人的發(fā)揮會(huì)更穩(wěn)定,如果全AI自主,運(yùn)動(dòng)速度和反應(yīng)速度都會(huì)變慢,從而影響比賽成績(jī)。
在公眾認(rèn)知中,如果人形機(jī)器人需要使用遙控器,那它似乎就很難擺脫“大玩具”的標(biāo)簽屬性。智源研究院院長(zhǎng)王仲遠(yuǎn)指出,“本質(zhì)上我們看到的所有遙控來展示的能力,都可以認(rèn)為是一個(gè)專用模型,因此它的每一個(gè)動(dòng)作是專門采集數(shù)據(jù)、專門進(jìn)行訓(xùn)練的,形成一些預(yù)設(shè)動(dòng)作”,遙控操作的好處是至少能夠完成一個(gè)高級(jí)指令。
“為什么大量使用遙控器操作,這與我們擁有的數(shù)據(jù)量有關(guān)?!蓖踔龠h(yuǎn)認(rèn)為,機(jī)器人時(shí)代可能仍會(huì)遵循此前深度學(xué)習(xí)1.0時(shí)代視覺識(shí)別的發(fā)展路徑,即先用小的、專用的具身模型進(jìn)行產(chǎn)品化落地,使機(jī)器人產(chǎn)業(yè)先跑起來,在活下來的同時(shí)把某個(gè)場(chǎng)景某個(gè)任務(wù)做到99%以上的準(zhǔn)確度,達(dá)到一個(gè)能夠長(zhǎng)時(shí)間運(yùn)行、不至于發(fā)熱損壞的穩(wěn)定狀態(tài),在這個(gè)過程中不斷產(chǎn)生數(shù)據(jù),提升泛化通用能力,從而形成閉環(huán)。
“如果有一天,機(jī)器人‘公民’數(shù)量越來越多,他們產(chǎn)生了海量的機(jī)器人專有數(shù)據(jù),而且這些數(shù)據(jù)能夠公開,能夠被廣泛訓(xùn)練和使用,屆時(shí)才有可能產(chǎn)生真正意義上的具身智能大模型。在最終理想狀態(tài)下,具身智能機(jī)器人能夠?qū)υ捊涣鳎吹秸鎸?shí)的世界,自主做決策和執(zhí)行,但是這顯然還有很長(zhǎng)的路要走。”王仲遠(yuǎn)說道。
值得一提的是,在記者采訪的機(jī)器人企業(yè)中,部分企業(yè)持樂觀的預(yù)期看法,認(rèn)為明年行業(yè)或?qū)⒓w“拋棄”遙控器。其中,旗下?lián)碛蟹律鷻C(jī)器人、IP機(jī)器人等產(chǎn)品線的企業(yè)公共關(guān)系與政府事務(wù)部總經(jīng)理吳為表示,今年下半年以來,商業(yè)化訂單開始規(guī)模交付,該公司的主要客戶集中于銀行、教育等行業(yè)?!皬男枨蠖藖砜?,商業(yè)化運(yùn)用的機(jī)器人一定沒有遙控器,客戶不可能買臺(tái)機(jī)器人,還配一個(gè)人來遙控它,所以這會(huì)倒逼機(jī)器人企業(yè)脫離對(duì)遙控器的依賴?!?/p>
除了商業(yè)場(chǎng)景中的應(yīng)用,事實(shí)上,在國(guó)內(nèi)外市場(chǎng),多家瞄準(zhǔn)通用形人形機(jī)器人的企業(yè)已在產(chǎn)品中打出了“全自主”“非遙控”的旗號(hào),不過自主化的程度、穩(wěn)定性尚有待市場(chǎng)的檢驗(yàn)。在關(guān)于具身智能的通用泛化能力如何提升探索中,當(dāng)前行業(yè)主要有三條技術(shù)路線,分別是端到端VLA(視覺-語言-動(dòng)作)模型、“大腦+小腦”分層模型、世界模型,當(dāng)然三條路線并不是非此即彼,甚至不少科技企業(yè)、學(xué)術(shù)研究機(jī)構(gòu)均有所布局。業(yè)界普遍認(rèn)為,具身智能領(lǐng)域尚未出現(xiàn)像大語言模型的ChatGPT時(shí)刻,相關(guān)的技術(shù)探索還未收斂,這就意味著具身智能真正的自主化、智能化尚有待成熟,機(jī)器人真正告別“背后有人”顯然還有一段路要走。