對中國主機(jī)廠來說,機(jī)器人跳舞不僅是傳播訴求,更是展示自己在硬件上下了多少功夫。機(jī)器人是個全新的產(chǎn)業(yè),與現(xiàn)有產(chǎn)業(yè)的零部件通用程度不高。比如覆蓋在機(jī)器人外表的“電子皮膚”,需要實現(xiàn)類似人類皮膚對外界的感知力,對傳感器的靈敏度和精確度要求遠(yuǎn)超行業(yè)標(biāo)準(zhǔn)。又比如硬件價值占比最高的關(guān)節(jié),就像人類關(guān)節(jié)支撐四肢活動,機(jī)器人的關(guān)節(jié)是完成一切復(fù)雜操作的基礎(chǔ),髖關(guān)節(jié)的強(qiáng)度決定了能搬運多重的貨物,拇指、食指的指尖關(guān)節(jié)決定了能穿多細(xì)的針、引多細(xì)的線。就連走路時更自然的步態(tài)、熱舞時更靈活的扭胯,都由關(guān)節(jié)方案的先進(jìn)性決定。
相比之下,美國機(jī)器人公司的重心集中在軟件環(huán)節(jié),致力于越過大語言模型與空間智能的分水嶺:對物理規(guī)則的理解。語言模型知道蘋果會掉到地上,但這只是對物理現(xiàn)象的一種描述,而不是理解物理規(guī)則本身。語言模型類似一種概率預(yù)測,推測下一個詞是什么,但空間智能更接近真實物理世界的模擬,算法需要判斷下一秒周圍環(huán)境的變化。相比舞刀弄槍,擰瓶蓋、開罐頭反而是更難攻克的場景。無論是谷歌和英偉達(dá)這類大公司,還是World Labs和Physical Intellence這些初創(chuàng)公司,瞄準(zhǔn)的都是軟件層面的世界模型,讓AI學(xué)會物理學(xué)這門必修課。
中國在給機(jī)器人重塑金身,美國在給機(jī)器人訓(xùn)練大腦,這樣一硬一軟的默契分工讓人似曾相識,就是新能源車產(chǎn)業(yè)。電動車——確切地說是自動駕駛,可以視為人形機(jī)器人的“前置產(chǎn)業(yè)”。如果電動車是長了輪子的機(jī)器人,那么人形機(jī)器人就是長了腿的電動車。兩者都依靠各類攝像頭、傳感器獲取外界數(shù)據(jù),通過算力芯片和模型算法進(jìn)行決策,再通過電機(jī)驅(qū)動車身或機(jī)體執(zhí)行任務(wù)。區(qū)別在于,人形機(jī)器人需要獲取的數(shù)據(jù)更精確,需要處理的決策更復(fù)雜,執(zhí)行的任務(wù)更多樣。