端到端最核心的一點在于將自動駕駛算法進行了全面的AI化,轉向了完全的數(shù)據(jù)驅動,但這意味著需要更加海量的數(shù)據(jù)進行模型的訓練。
但對于到底需要多少數(shù)據(jù)才能訓練出一個完美的自動駕駛模型,業(yè)界并沒有一個統(tǒng)一的標準。之前有報道稱,特斯拉2024年初的視頻訓練片段數(shù)量將近3000萬個。按照每個視頻片段30秒、30FPS的幀率、8個攝像頭計算,訓練圖片數(shù)量高達220億張。
此外,這種規(guī)模的訓練數(shù)據(jù)訓練出來的自動駕駛系統(tǒng)的等級仍未達到L3,自動駕駛系統(tǒng)能力每提高一個等級,需要的訓練數(shù)據(jù)量至少會提升一個數(shù)量級,也就是說,要達到L4,至少需要訓練幾億個視頻片段。
端到端雖然強化了數(shù)據(jù)的作用,但大模型的引入?yún)s增加了龐大的數(shù)據(jù)標注需求。在基于語言模型的自動駕駛大模型中,其輸入是當前駕駛場景的圖片,其輸出是各類交通參與者、道路拓撲、交通信號標識的語義信息,這種模型不具備自回歸特性,進行有監(jiān)督學習,其訓練需要海量的數(shù)據(jù)標注工作。
這引發(fā)了一個新的問題:如果端到端自動駕駛模型的訓練還需要繼續(xù)打標簽,在源源不斷產(chǎn)生的海量數(shù)據(jù)面前,還如何保證高效訓練?這也是一直以來影響端到端進一步發(fā)展的最大阻礙。
世界模型實現(xiàn)從感知到認知的躍遷
無論是BEV檢測的白名單障礙物還是OCC占用網(wǎng)絡檢測的通用障礙物,從本質上來說,都屬于基于判別式AI實現(xiàn)的對分立物體的單獨感知。
生成式AI大模型具備的超強理解能力使得視覺語言模型、大語言模型、世界模型可以建立對當下場景的整體認知,實現(xiàn)從感知到認知的階躍。
舉例來說,BEV可以檢測到一個行人,大模型可以通過意圖理解判斷出這是一個要橫穿馬路的行人。BEV網(wǎng)絡可以檢測到前方的一個車輛,大模型可以更進一步,通過長時序信息判斷出這是一個即將減速的車輛。
誰將成為下一個入股引望的車企?華為輪值董事長徐直軍日前接受媒體采訪,首次公開回應了引望之問。當前,包括北汽藍谷、江淮汽車、一汽和東風等都是猜測對象。
2024-09-24 09:49:22誰將成為下一個入股引望的車企以色列宣布打死辛瓦爾后,關于誰將成為哈馬斯新領導人的討論引發(fā)了多家外媒的關注。英國《每日電訊報》列出了幾位潛在人選,其中68歲的哈立德·馬沙爾被認為是最有可能的人選之一
2024-10-21 20:19:03誰將成為新的哈馬斯領導人