宇樹科技王興興發(fā)“暴論”，對(duì)智駕有什么參考？(2)

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-08-14 10:55:49 賽博汽車

王興興認(rèn)為，具身智能發(fā)展的關(guān)鍵問題在于模型架構(gòu)不夠完善、缺乏統(tǒng)一性、泛用性，導(dǎo)致能力受限，而且數(shù)據(jù)還不能完全利用起來。

以當(dāng)前較受關(guān)注的VLA模型為例，王興興認(rèn)為其是“相對(duì)傻瓜式的架構(gòu)”，其在真實(shí)世界交互中，對(duì)數(shù)據(jù)質(zhì)量的依賴過高，但適應(yīng)性不足。因此，他對(duì)VLA模型的應(yīng)用前景持懷疑態(tài)度。

此外，“VLA模型+RL訓(xùn)練”也是行業(yè)常見的優(yōu)化思路，但他認(rèn)為，實(shí)踐表明折讓仍然不夠?！澳Ｐ图軜?gòu)必須進(jìn)一步升級(jí)，不能停留在簡單組合層面?！蓖跖d興這樣說道。

在王興興看來，另一個(gè)限制發(fā)展因素是“RL Scaling law（縮放定律）”的缺失，這導(dǎo)致機(jī)器人尚未解決“從零開始”的魔咒。王興興認(rèn)為，目前機(jī)器人在學(xué)習(xí)新任務(wù)時(shí)，例如學(xué)習(xí)一支新的舞蹈或完成一項(xiàng)新的工作，往往需要從零開始訓(xùn)練，這導(dǎo)致了訓(xùn)練效率的顯著低下。這是由于機(jī)器人控制中“RL Scaling law（縮放定律）” 的缺失造成的。

在王興興看來，具身智能的理想狀態(tài)是“新任務(wù)訓(xùn)練基于舊有基礎(chǔ)，速度越來越快、效果越來越好”。這一規(guī)律在語言模型中已得到充分驗(yàn)證，而在機(jī)器人運(yùn)動(dòng)控制領(lǐng)域，尚處于起步階段，不過展現(xiàn)出巨大的潛力，是值得行業(yè)深入探索的關(guān)鍵領(lǐng)域。

既然VLA模型模型還不足夠優(yōu)秀，那么什么模型才是方向呢？

王興興認(rèn)為，現(xiàn)階段看視頻生成模型的路線可能比VLA模型更快，收斂概率更大。

其核心邏輯在于：利用視頻生成模型預(yù)先“模擬生成機(jī)器人動(dòng)作序列的視頻”，進(jìn)而直接指導(dǎo)實(shí)體機(jī)器人執(zhí)行相應(yīng)動(dòng)作。例如，若指令為“整理房間”，模型可先生成機(jī)器人整理房間的虛擬視頻，再將視頻中的動(dòng)作轉(zhuǎn)化為實(shí)體機(jī)器人的控制信號(hào)。

首頁上一頁 123 4 全文共 4 頁下一頁

關(guān)閉

宇樹科技王興興發(fā)“暴論”，對(duì)智駕有什么參考？(2)

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

宇樹科技王興興發(fā)“暴論”，對(duì)智駕有什么參考？(2)