王興興認(rèn)為,具身智能發(fā)展的關(guān)鍵問題在于模型架構(gòu)不夠完善、缺乏統(tǒng)一性、泛用性,導(dǎo)致能力受限,而且數(shù)據(jù)還不能完全利用起來。
以當(dāng)前較受關(guān)注的VLA模型為例,王興興認(rèn)為其是“相對(duì)傻瓜式的架構(gòu)”,其在真實(shí)世界交互中,對(duì)數(shù)據(jù)質(zhì)量的依賴過高,但適應(yīng)性不足。因此,他對(duì)VLA模型的應(yīng)用前景持懷疑態(tài)度。
此外,“VLA模型+RL訓(xùn)練”也是行業(yè)常見的優(yōu)化思路,但他認(rèn)為,實(shí)踐表明折讓仍然不夠?!澳P图軜?gòu)必須進(jìn)一步升級(jí),不能停留在簡單組合層面?!蓖跖d興這樣說道。
在王興興看來,另一個(gè)限制發(fā)展因素是“RL Scaling law(縮放定律)”的缺失,這導(dǎo)致機(jī)器人尚未解決“從零開始”的魔咒。王興興認(rèn)為,目前機(jī)器人在學(xué)習(xí)新任務(wù)時(shí),例如學(xué)習(xí)一支新的舞蹈或完成一項(xiàng)新的工作,往往需要從零開始訓(xùn)練,這導(dǎo)致了訓(xùn)練效率的顯著低下。這是由于機(jī)器人控制中“RL Scaling law(縮放定律)” 的缺失造成的。
在王興興看來,具身智能的理想狀態(tài)是“新任務(wù)訓(xùn)練基于舊有基礎(chǔ),速度越來越快、效果越來越好”。這一規(guī)律在語言模型中已得到充分驗(yàn)證,而在機(jī)器人運(yùn)動(dòng)控制領(lǐng)域,尚處于起步階段,不過展現(xiàn)出巨大的潛力,是值得行業(yè)深入探索的關(guān)鍵領(lǐng)域。
既然VLA模型模型還不足夠優(yōu)秀,那么什么模型才是方向呢?
王興興認(rèn)為,現(xiàn)階段看視頻生成模型的路線可能比VLA模型更快,收斂概率更大。
其核心邏輯在于:利用視頻生成模型預(yù)先“模擬生成機(jī)器人動(dòng)作序列的視頻”,進(jìn)而直接指導(dǎo)實(shí)體機(jī)器人執(zhí)行相應(yīng)動(dòng)作。例如,若指令為“整理房間”,模型可先生成機(jī)器人整理房間的虛擬視頻,再將視頻中的動(dòng)作轉(zhuǎn)化為實(shí)體機(jī)器人的控制信號(hào)。
時(shí)機(jī)悄然轉(zhuǎn)變,汽車行業(yè)從“上半場”的電動(dòng)化轉(zhuǎn)向“下半場”的智能化。2025年初,這一換擋期到來
2025-02-18 09:50:242025智駕元年啟動(dòng)