理想汽車為何押注司機大模型!理想汽車借助端到端+VLM架構(gòu),在輔助駕駛領(lǐng)域?qū)崿F(xiàn)了顯著進步。為了進一步鞏固在這一領(lǐng)域的優(yōu)勢,甚至成為行業(yè)引領(lǐng)者,理想汽車引入了新的技術(shù)架構(gòu)——VLA(視覺、語言、行動)大模型,也稱為司機大模型。
5月7日晚,理想汽車舉辦了“理想AI Talk第二季 李想面對面”線上活動。理想汽車創(chuàng)始人、CEO李想?yún)⑴c討論了AI及其在輔助駕駛、智能駕駛和汽車上的應用思路。他認為當前的輔助駕駛系統(tǒng)與人類相比仍有較大差距,而司機大模型的能力則接近甚至可能超越人類水平,并且有望實現(xiàn)全自動駕駛。
理想汽車透露,搭載VLA(司機大模型)的理想純電SUV i8將于7月發(fā)布上市。盡管具體的上車時間未公布,但比此前預計的9月要提前。
目前,輔助駕駛系統(tǒng)的發(fā)展面臨一些問題。由于一些事故的影響,系統(tǒng)的安全性受到質(zhì)疑。對于理想汽車而言,雖然其端到端+VLM雙系統(tǒng)開創(chuàng)了先河,但仍需提升能力以達到更高的標準。
李想提到,規(guī)則算法和端到端架構(gòu)存在兩個主要問題:一是難以處理復雜場景,二是無法與人溝通。相比之下,VLA架構(gòu)能夠更好地理解復雜場景并通過生成數(shù)據(jù)進行訓練。此外,它還能通過語言理解指令,從而更靈活地執(zhí)行任務。例如,在小區(qū)等開放空間中,司機大模型可以與導航系統(tǒng)配合,完成復雜的駕駛?cè)蝿铡?/p>
VLA架構(gòu)的訓練分為四個步驟。首先,訓練一個VL(視覺和語言)基座模型,該模型包含大量3D和2D視覺語料以及交通相關(guān)的語言資料。其次,將行動部分加入模型,使其從VL模型變?yōu)閂LA模型。第三步是強化訓練,包括基于人類反饋的強化學習和純粹的強化學習。最后一步是構(gòu)建一個能夠理解司機語音指令的Agent。
李想表示,VLA架構(gòu)最早可能在交通領(lǐng)域得到廣泛應用,因為交通規(guī)則明確且具有確定性。盡管VLA架構(gòu)目前是能力最強的,但不一定是最高效的。未來可能會出現(xiàn)更高效的新架構(gòu)。面對當前社會對輔助駕駛的負面評價,李想認為這類似于黎明前的黑暗,光明即將到來。
3月27日,2025中關(guān)村論壇年會開幕,會上發(fā)布了重大科技成果,其中理想汽車自研的整車操作系統(tǒng)“理想星環(huán)OS”入選北京重大開源系列成果
2025-03-27 13:45:32理想開源汽車操作系統(tǒng)