北京人形機(jī)器人創(chuàng)新中心提出WoW 讓AI真正理解物理世界!北京大學(xué)計(jì)算機(jī)學(xué)院、北京人形機(jī)器人創(chuàng)新中心以及香港科技大學(xué)聯(lián)合完成了一項(xiàng)突破性研究,于2025年10月發(fā)表在arXiv預(yù)印本平臺(tái)。研究團(tuán)隊(duì)由北京大學(xué)的張尚航教授和唐建教授共同領(lǐng)導(dǎo),匯集了來(lái)自三所頂尖學(xué)府的數(shù)十位研究人員。這項(xiàng)研究首次讓人工智能真正"理解"了物理世界的運(yùn)作規(guī)律,而不僅僅是模仿表面現(xiàn)象。
當(dāng)我們看到一個(gè)球從桌子上滾落時(shí),我們本能地知道它會(huì)掉到地上,而不是懸浮在空中。這種對(duì)物理世界的直覺(jué)理解對(duì)人類來(lái)說(shuō)是自然的,但對(duì)人工智能來(lái)說(shuō)卻一直是個(gè)巨大的挑戰(zhàn)。現(xiàn)有的AI視頻生成模型,比如OpenAI的Sora,雖然能制作出視覺(jué)效果驚艷的視頻,但它們就像只會(huì)畫畫的藝術(shù)家,能畫出好看的畫面,卻不懂得畫面背后的物理原理。它們可能會(huì)畫出物體懸浮在空中、違反重力定律的荒謬場(chǎng)景。
這種局限性的根源在于這些模型是通過(guò)觀看網(wǎng)絡(luò)視頻來(lái)學(xué)習(xí)的,就像一個(gè)從未親手觸摸過(guò)球的人,只能通過(guò)看別人玩球的視頻來(lái)"學(xué)習(xí)"球的特性。這種被動(dòng)觀察的學(xué)習(xí)方式讓AI只能掌握事物的外觀,而無(wú)法理解事物運(yùn)作的內(nèi)在規(guī)律。認(rèn)知科學(xué)家讓·皮亞杰曾經(jīng)說(shuō)過(guò):"要了解一個(gè)物體,就必須對(duì)它采取行動(dòng)。"這句話揭示了學(xué)習(xí)的本質(zhì):真正的理解來(lái)自于與世界的互動(dòng),而不是被動(dòng)的觀察。
基于這個(gè)深刻的認(rèn)知科學(xué)洞察,北京大學(xué)的研究團(tuán)隊(duì)開(kāi)發(fā)了WoW(World-Omniscient World Model)世界模型,這是一個(gè)擁有140億參數(shù)的生成式世界模型。與傳統(tǒng)模型最大的不同在于,WoW是通過(guò)200萬(wàn)個(gè)真實(shí)機(jī)器人互動(dòng)軌跡進(jìn)行訓(xùn)練的。這些數(shù)據(jù)涵蓋了5275個(gè)不同任務(wù)和12種不同類型的機(jī)器人,就像讓AI親手體驗(yàn)了無(wú)數(shù)次物理互動(dòng),從而真正學(xué)會(huì)了重力、碰撞、慣性等物理定律。
2025世界人形機(jī)器人運(yùn)動(dòng)會(huì),在機(jī)器人異彩紛呈的表現(xiàn)背后,是相關(guān)技術(shù)的不斷迭代更新。
2025-08-18 07:50:28世界人形機(jī)器人運(yùn)動(dòng)會(huì)為創(chuàng)新找準(zhǔn)突破口