3月18日,李想在其個人社交媒體發了一篇長文,來闡述剛剛發布的理想汽車自動駕駛模型MINDVLA,表述理想對自動駕駛模型的突破和理解。和特斯拉的模型一樣,理想自動駕駛的模型不再僅僅是一個自動駕駛模型,而是一個通用到各個物理世界的智能體模。
理想汽車在自動駕駛領域的核心突破就是真正的三維視覺編碼器,原生3D VIT。李想解釋了原來端到端模型之所以不是3D的,而是2D的,是因為它沒有經歷3D預訓練,全都是搞的一些2D預訓練。
但理想的3D VIT解決了這個問題,不再是用2D還原3D,而是一開始就在3D當中工作。
所以,有了3D VIT,MindVLA-o1把空間理解、思考推理、駕駛行為統一在一個模型里。MindVLA-o1把空間理解、思考推理、駕駛行為統一在一個模型里。不光看見世界,還能在隱空間里模擬未來幾秒的場景變化,想清楚再開。我們把這種能力稱之為多模態思考。
理想也已經進行了驗證,這套基座模型不只是為自動駕駛設計的。同一套VLA基座模型,能開車,也能控制機器人,它正在逐漸演化成一個通用的物理世界智能體。
理想的自動駕駛模型,不再局限於汽車,而是在物理世界裡能夠通用,將是一個徹頭徹尾的智能體。馬斯克曾經說特斯拉的ADS就是這樣一個在汽車裡能用,在其他地方也能用通用模型。
在新能源汽車智駕大放異彩的時期,希望國內品牌都能有自研能力,有自己的智駕路線,為消費者提供豐富的產品體驗。