理想汽車(chē)為何押注司機(jī)大模型!理想汽車(chē)借助端到端+VLM架構(gòu),在輔助駕駛領(lǐng)域?qū)崿F(xiàn)了顯著進(jìn)步。為了進(jìn)一步鞏固在這一領(lǐng)域的優(yōu)勢(shì),甚至成為行業(yè)引領(lǐng)者,理想汽車(chē)引入了新的技術(shù)架構(gòu)——VLA(視覺(jué)、語(yǔ)言、行動(dòng))大模型,也稱(chēng)為司機(jī)大模型。
5月7日晚,理想汽車(chē)舉辦了“理想AI Talk第二季 李想面對(duì)面”線上活動(dòng)。理想汽車(chē)創(chuàng)始人、CEO李想?yún)⑴c討論了AI及其在輔助駕駛、智能駕駛和汽車(chē)上的應(yīng)用思路。他認(rèn)為當(dāng)前的輔助駕駛系統(tǒng)與人類(lèi)相比仍有較大差距,而司機(jī)大模型的能力則接近甚至可能超越人類(lèi)水平,并且有望實(shí)現(xiàn)全自動(dòng)駕駛。
理想汽車(chē)透露,搭載VLA(司機(jī)大模型)的理想純電SUV i8將于7月發(fā)布上市。盡管具體的上車(chē)時(shí)間未公布,但比此前預(yù)計(jì)的9月要提前。
目前,輔助駕駛系統(tǒng)的發(fā)展面臨一些問(wèn)題。由于一些事故的影響,系統(tǒng)的安全性受到質(zhì)疑。對(duì)于理想汽車(chē)而言,雖然其端到端+VLM雙系統(tǒng)開(kāi)創(chuàng)了先河,但仍需提升能力以達(dá)到更高的標(biāo)準(zhǔn)。
李想提到,規(guī)則算法和端到端架構(gòu)存在兩個(gè)主要問(wèn)題:一是難以處理復(fù)雜場(chǎng)景,二是無(wú)法與人溝通。相比之下,VLA架構(gòu)能夠更好地理解復(fù)雜場(chǎng)景并通過(guò)生成數(shù)據(jù)進(jìn)行訓(xùn)練。此外,它還能通過(guò)語(yǔ)言理解指令,從而更靈活地執(zhí)行任務(wù)。例如,在小區(qū)等開(kāi)放空間中,司機(jī)大模型可以與導(dǎo)航系統(tǒng)配合,完成復(fù)雜的駕駛?cè)蝿?wù)。
VLA架構(gòu)的訓(xùn)練分為四個(gè)步驟。首先,訓(xùn)練一個(gè)VL(視覺(jué)和語(yǔ)言)基座模型,該模型包含大量3D和2D視覺(jué)語(yǔ)料以及交通相關(guān)的語(yǔ)言資料。其次,將行動(dòng)部分加入模型,使其從VL模型變?yōu)閂LA模型。第三步是強(qiáng)化訓(xùn)練,包括基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)和純粹的強(qiáng)化學(xué)習(xí)。最后一步是構(gòu)建一個(gè)能夠理解司機(jī)語(yǔ)音指令的Agent。
李想表示,VLA架構(gòu)最早可能在交通領(lǐng)域得到廣泛應(yīng)用,因?yàn)榻煌ㄒ?guī)則明確且具有確定性。盡管VLA架構(gòu)目前是能力最強(qiáng)的,但不一定是最高效的。未來(lái)可能會(huì)出現(xiàn)更高效的新架構(gòu)。面對(duì)當(dāng)前社會(huì)對(duì)輔助駕駛的負(fù)面評(píng)價(jià),李想認(rèn)為這類(lèi)似于黎明前的黑暗,光明即將到來(lái)。