端到端、世界模型、車路云……誰將成為明年“AI+交通”最熱詞？(3)

小大

用微信掃描二維碼
分享至好友和朋友圈

關鍵詞：

2024-12-13 14:37:29 極智GeeTech

端到端最核心的一點在于將自動駕駛算法進行了全面的AI化，轉向了完全的數(shù)據(jù)驅動，但這意味著需要更加海量的數(shù)據(jù)進行模型的訓練。

但對于到底需要多少數(shù)據(jù)才能訓練出一個完美的自動駕駛模型，業(yè)界并沒有一個統(tǒng)一的標準。之前有報道稱，特斯拉2024年初的視頻訓練片段數(shù)量將近3000萬個。按照每個視頻片段30秒、30FPS的幀率、8個攝像頭計算，訓練圖片數(shù)量高達220億張。

此外，這種規(guī)模的訓練數(shù)據(jù)訓練出來的自動駕駛系統(tǒng)的等級仍未達到L3，自動駕駛系統(tǒng)能力每提高一個等級，需要的訓練數(shù)據(jù)量至少會提升一個數(shù)量級，也就是說，要達到L4，至少需要訓練幾億個視頻片段。

端到端雖然強化了數(shù)據(jù)的作用，但大模型的引入?yún)s增加了龐大的數(shù)據(jù)標注需求。在基于語言模型的自動駕駛大模型中，其輸入是當前駕駛場景的圖片，其輸出是各類交通參與者、道路拓撲、交通信號標識的語義信息，這種模型不具備自回歸特性，進行有監(jiān)督學習，其訓練需要海量的數(shù)據(jù)標注工作。

這引發(fā)了一個新的問題：如果端到端自動駕駛模型的訓練還需要繼續(xù)打標簽，在源源不斷產(chǎn)生的海量數(shù)據(jù)面前，還如何保證高效訓練？這也是一直以來影響端到端進一步發(fā)展的最大阻礙。

世界模型實現(xiàn)從感知到認知的躍遷

無論是BEV檢測的白名單障礙物還是OCC占用網(wǎng)絡檢測的通用障礙物，從本質上來說，都屬于基于判別式AI實現(xiàn)的對分立物體的單獨感知。

生成式AI大模型具備的超強理解能力使得視覺語言模型、大語言模型、世界模型可以建立對當下場景的整體認知，實現(xiàn)從感知到認知的階躍。

舉例來說，BEV可以檢測到一個行人，大模型可以通過意圖理解判斷出這是一個要橫穿馬路的行人。BEV網(wǎng)絡可以檢測到前方的一個車輛，大模型可以更進一步，通過長時序信息判斷出這是一個即將減速的車輛。

首頁上一頁 1 234 5 6...全文共 7 頁下一頁

關閉

端到端、世界模型、車路云……誰將成為明年“AI+交通”最熱詞？(3)

相關新聞

今日熱點

頻道熱點

端到端、世界模型、車路云……誰將成為明年“AI+交通”最熱詞？(3)