理想汽車為何押注司機大模型邁向全自動駕駛

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-05-08 15:43:37 電動汽車觀察家

理想汽車為何押注司機大模型！理想汽車借助端到端+VLM架構(gòu)，在輔助駕駛領(lǐng)域?qū)崿F(xiàn)了顯著進步。為了進一步鞏固在這一領(lǐng)域的優(yōu)勢，甚至成為行業(yè)引領(lǐng)者，理想汽車引入了新的技術(shù)架構(gòu)——VLA（視覺、語言、行動）大模型，也稱為司機大模型。

5月7日晚，理想汽車舉辦了“理想AI Talk第二季李想面對面”線上活動。理想汽車創(chuàng)始人、CEO李想?yún)⑴c討論了AI及其在輔助駕駛、智能駕駛和汽車上的應用思路。他認為當前的輔助駕駛系統(tǒng)與人類相比仍有較大差距，而司機大模型的能力則接近甚至可能超越人類水平，并且有望實現(xiàn)全自動駕駛。

理想汽車透露，搭載VLA（司機大模型）的理想純電SUV i8將于7月發(fā)布上市。盡管具體的上車時間未公布，但比此前預計的9月要提前。

目前，輔助駕駛系統(tǒng)的發(fā)展面臨一些問題。由于一些事故的影響，系統(tǒng)的安全性受到質(zhì)疑。對于理想汽車而言，雖然其端到端+VLM雙系統(tǒng)開創(chuàng)了先河，但仍需提升能力以達到更高的標準。

李想提到，規(guī)則算法和端到端架構(gòu)存在兩個主要問題：一是難以處理復雜場景，二是無法與人溝通。相比之下，VLA架構(gòu)能夠更好地理解復雜場景并通過生成數(shù)據(jù)進行訓練。此外，它還能通過語言理解指令，從而更靈活地執(zhí)行任務。例如，在小區(qū)等開放空間中，司機大模型可以與導航系統(tǒng)配合，完成復雜的駕駛?cè)蝿铡?/p>

VLA架構(gòu)的訓練分為四個步驟。首先，訓練一個VL（視覺和語言）基座模型，該模型包含大量3D和2D視覺語料以及交通相關(guān)的語言資料。其次，將行動部分加入模型，使其從VL模型變?yōu)閂LA模型。第三步是強化訓練，包括基于人類反饋的強化學習和純粹的強化學習。最后一步是構(gòu)建一個能夠理解司機語音指令的Agent。

李想表示，VLA架構(gòu)最早可能在交通領(lǐng)域得到廣泛應用，因為交通規(guī)則明確且具有確定性。盡管VLA架構(gòu)目前是能力最強的，但不一定是最高效的。未來可能會出現(xiàn)更高效的新架構(gòu)。面對當前社會對輔助駕駛的負面評價，李想認為這類似于黎明前的黑暗，光明即將到來。

(責任編輯：0882)

關(guān)閉

理想汽車為何押注司機大模型 邁向全自動駕駛

相關(guān)新聞

今日熱點

頻道熱點

理想汽車為何押注司機大模型邁向全自動駕駛