誰將成為明年“AI 交通”最熱詞世界模型引領(lǐng)潮流

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2024-12-13 13:58:59 澎湃新聞

1942年，科幻小說家艾薩克·阿西莫夫在他的短篇小說《轉(zhuǎn)圈圈》中首次提出了“機(jī)器人三定律”，這一定律被視為現(xiàn)代人工智能技術(shù)的基石。八十年后，世界在許多方面已經(jīng)接近甚至超越了阿西莫夫的想象。

如今，人們生活在一個由人工智能滲透的世界里。2024年，我們見證了一系列人工智能技術(shù)的創(chuàng)新與涌現(xiàn)，如AI視頻生成模型Sora和GPT-4o等。這些新技術(shù)不僅提升了駕駛體驗，還為城市交通的安全性、效率和可持續(xù)性帶來了新的可能。

展望2025年，隨著人工智能與交通的進(jìn)一步融合，BEV+OCC感知能力困局待解。近年來，自動駕駛領(lǐng)域熱詞依次為：BEV+Transformer、OCC占用網(wǎng)絡(luò)、無圖NOA、端到端。BEV網(wǎng)絡(luò)通過矢量化的鳥瞰視角檢測白名單障礙物，而OCC通過體素化的占用網(wǎng)絡(luò)預(yù)測3D空間的占位情況，實現(xiàn)對通用障礙物的感知。然而，目前BEV網(wǎng)絡(luò)的感知上限大約為1000多種物體，OCC網(wǎng)格大小受限于算力和實時性，通常只能做到10厘米左右，難以檢測微小物體。此外，天氣、光照、雨霧等復(fù)雜語義也是當(dāng)前技術(shù)難以解決的問題。

數(shù)據(jù)成為端到端方案的最大瓶頸。相較于分模塊方案，端到端方案主要解決了從人工邏輯代碼到數(shù)據(jù)驅(qū)動的問題，并通過自動抽取信息減少信息損失。決策和規(guī)劃的進(jìn)步顯著，但感知能力提升有限。訓(xùn)練一個完美的自動駕駛模型需要海量數(shù)據(jù)，特斯拉2024年初的視頻訓(xùn)練片段數(shù)量將近3000萬個，但仍未達(dá)到L3級別。大模型的引入增加了數(shù)據(jù)標(biāo)注需求，如何保證高效訓(xùn)練成為關(guān)鍵問題。

世界模型實現(xiàn)了從感知到認(rèn)知的躍遷。生成式AI大模型具備超強(qiáng)理解能力，能夠建立對當(dāng)下場景的整體認(rèn)知。例如，大模型可以通過意圖理解判斷出行人是否要橫穿馬路，或通過長時序信息判斷車輛是否即將減速。這種從部分到整體、從分立到連續(xù)、從感知到認(rèn)知的轉(zhuǎn)變，使自動駕駛系統(tǒng)更加貼近人類駕駛的知識邏輯。世界模型的訓(xùn)練數(shù)據(jù)是視頻序列，輸入當(dāng)前時刻視頻，輸出下一時刻視頻，可以進(jìn)行無監(jiān)督訓(xùn)練，解決了傳統(tǒng)端到端模型需要精確標(biāo)注海量視頻數(shù)據(jù)的難題。

12 全文共 2 頁下一頁

關(guān)閉

誰將成為明年“AI 交通”最熱詞 世界模型引領(lǐng)潮流

相關(guān)新聞

今日熱點

頻道熱點

誰將成為明年“AI 交通”最熱詞世界模型引領(lǐng)潮流