1942年,科幻小說(shuō)家艾薩克·阿西莫夫在他的短篇小說(shuō)《轉(zhuǎn)圈圈》中首次提出了“機(jī)器人三定律”,這一定律被視為現(xiàn)代人工智能技術(shù)的基石。八十年后,世界在許多方面已經(jīng)接近甚至超越了阿西莫夫的想象。
如今,人們生活在一個(gè)由人工智能滲透的世界里。2024年,我們見(jiàn)證了一系列人工智能技術(shù)的創(chuàng)新與涌現(xiàn),如AI視頻生成模型Sora和GPT-4o等。這些新技術(shù)不僅提升了駕駛體驗(yàn),還為城市交通的安全性、效率和可持續(xù)性帶來(lái)了新的可能。
展望2025年,隨著人工智能與交通的進(jìn)一步融合,BEV+OCC感知能力困局待解。近年來(lái),自動(dòng)駕駛領(lǐng)域熱詞依次為:BEV+Transformer、OCC占用網(wǎng)絡(luò)、無(wú)圖NOA、端到端。BEV網(wǎng)絡(luò)通過(guò)矢量化的鳥(niǎo)瞰視角檢測(cè)白名單障礙物,而OCC通過(guò)體素化的占用網(wǎng)絡(luò)預(yù)測(cè)3D空間的占位情況,實(shí)現(xiàn)對(duì)通用障礙物的感知。然而,目前BEV網(wǎng)絡(luò)的感知上限大約為1000多種物體,OCC網(wǎng)格大小受限于算力和實(shí)時(shí)性,通常只能做到10厘米左右,難以檢測(cè)微小物體。此外,天氣、光照、雨霧等復(fù)雜語(yǔ)義也是當(dāng)前技術(shù)難以解決的問(wèn)題。
數(shù)據(jù)成為端到端方案的最大瓶頸。相較于分模塊方案,端到端方案主要解決了從人工邏輯代碼到數(shù)據(jù)驅(qū)動(dòng)的問(wèn)題,并通過(guò)自動(dòng)抽取信息減少信息損失。決策和規(guī)劃的進(jìn)步顯著,但感知能力提升有限。訓(xùn)練一個(gè)完美的自動(dòng)駕駛模型需要海量數(shù)據(jù),特斯拉2024年初的視頻訓(xùn)練片段數(shù)量將近3000萬(wàn)個(gè),但仍未達(dá)到L3級(jí)別。大模型的引入增加了數(shù)據(jù)標(biāo)注需求,如何保證高效訓(xùn)練成為關(guān)鍵問(wèn)題。
世界模型實(shí)現(xiàn)了從感知到認(rèn)知的躍遷。生成式AI大模型具備超強(qiáng)理解能力,能夠建立對(duì)當(dāng)下場(chǎng)景的整體認(rèn)知。例如,大模型可以通過(guò)意圖理解判斷出行人是否要橫穿馬路,或通過(guò)長(zhǎng)時(shí)序信息判斷車輛是否即將減速。這種從部分到整體、從分立到連續(xù)、從感知到認(rèn)知的轉(zhuǎn)變,使自動(dòng)駕駛系統(tǒng)更加貼近人類駕駛的知識(shí)邏輯。世界模型的訓(xùn)練數(shù)據(jù)是視頻序列,輸入當(dāng)前時(shí)刻視頻,輸出下一時(shí)刻視頻,可以進(jìn)行無(wú)監(jiān)督訓(xùn)練,解決了傳統(tǒng)端到端模型需要精確標(biāo)注海量視頻數(shù)據(jù)的難題。