2025年11月小鵬科技日上,何小鵬發布了小鵬第二代VLA,創新性地去掉了“語言轉譯”環節,實現了從視覺(V)信號直接生成動作(A)指令的端到端架構。
今天,小鵬又發布了小鵬X9在廣州夜晚複雜路況下,第二代VLA實測的視頻,小鵬X9表現得從從容容,遊刃有餘。

小鵬X9 第二代VLA測試
這就讓人有點迷糊了,既然第二代VLA去掉了“語言轉譯”環節,那還叫“VLA”嗎?既然都沒有“L”了,直接從視覺(V)到動作(A)端到端了,那又和傳統如特斯拉“端到端”有啥區別?

網友:VLA的L呢
其實去掉“語言轉譯”環節,並不是說沒有了“L”。
首先簡單了解一下傳統意義的VLA(Vision-Language-Action),其運行架構是串聯式的“視覺→語言→動作”,先將視覺信息轉譯成文本或語義符號,再進行推理和動作規劃;小鵬第二代VLA則是端到端架構,“視覺→動作”,直接從視覺信號映射到動作指令,無需中間的“語言”橋樑,這一點又和特斯拉的“端到端”非常像。但,既然小鵬宣傳是第二代VLA,是端到端,那肯定又和傳統端到端(比如特斯拉)有不一樣的地方。它們之前到底哪裡不同呢?
那咱還得再了解一下傳統意義的“端到端”,曾經被吹的多牛多牛,被國內無數車企,包括之前的理想、小鵬追捧,甚至有車企智駕名字都叫“端到端輔助駕駛”了,CEO更是在汽車高質量發展百人大會上宣傳“每一輛車都是端到端自動駕駛[暈]

端到端自動駕駛
傳統“端到端”在自動駕駛里,指從傳感器(攝像頭,雷達等)信號直接到控制信號,完全省略中間任何顯式表示。從信息輸入到動作執行,中間是一個“黑箱”,你不知道它為啥執行這個動作,所執行動作也無法有效解釋。所以,特斯拉FSD在國內沒有好的數據訓練,陳震也搞不明白為啥跑偏,限速60為啥只跑30。這就是“黑箱”,FSD到底學了些啥,你完全不清楚。

陳震測試FSD
既然小鵬從最開始學習特斯拉端到端,到VLA,再到第二代VLA,這個不斷轉變肯定是越來越強,它們之間各自優缺點是怎麼樣的?
傳統端到端(如特斯拉純視覺),追求的是極致的“輸入-輸出”映射,中間沒有其他模態的介入(黑箱),訓練模型只關心動作的模仿,它的目標就是復現駕駛動作,看到即執行,沒有中間思考。所以,傳統端到端的效率特別高(這也是特斯拉被認為動作絲滑的原因),但缺點也非常突出,對訓練數據質量要求非常高,好的壞的都會學[捂臉],發生錯誤無法定位。由於不能解釋為什麼做出這個動作,所以,事故後取證,責任認定都是個問題。因為從感知到執行中間是個“黑箱”,你完全沒辦法搞清楚它是怎麼想的。

黑箱機制
而傳統VLA(帶語言轉譯),是顯式的“思維鏈”模式,先理解,後執行。由“視覺->語言->動作”,中間語言做為思維的媒介,使得模型的“思考過程”變得透明,可解釋,決策過程清晰,看到了什麼 -> 理解成了什麼 -> 決定做什麼。其本質是,將感知問題轉化為語言理解問題,利用的大語言模型(LLM)的常識和推理能力。所以,傳統VLA的“L”,其核心是LLM,可以充分LLM強大的常識、推理和規劃能力。例如,它可以用語言推理出“那個球可能會滾到路上,所以小孩可能會去追,我應該減速”。但缺點也很明顯,決策過程慢且可能冗餘,把每個視覺場景都轉譯成語言是不必要的,就像司機不需要把“我要剎車”說出來再行動一樣。這個轉譯環節增加了延遲和犯錯的概率,就好比有些人嘴裡喊着踩剎車,實際卻踩着油門[捂臉]。

“端到端”卡殼
再看看小鵬第二代VLA(無語言轉譯),其實是一個隱式的“世界模型”,核心邏輯是“直覺化反應”。它砍掉的不是“思考”,而是“用語言表達思考”這個環節,模型在內部仍然構建了對物理世界的理解,但它不把這個理解“說”出來,而是直接映射到動作。比如通過大量觀看老司機開車的視頻來學習,不要求它“說出來”,直接模仿手腳的動作,形成一種“肌肉記憶”和“條件反射”。所以,小鵬二代VLA中的“L”,理解為LLM更合適,把LLM做為工具,被內化到訓練數據生成或模型預訓練中,而不在推理鏈中。

小鵬第二代VLA架構
可以看出,小鵬二代VLA結合了“傳統端到端”和VLA的優勢,模型直接從視頻序列中學習動作的因果鏈(映射),來構建對物理世界的理解,動作只是理解的副產品。所以,何小鵬稱其為“物理AI”,該模型將為小鵬汽車在AI汽車、Robotaxi、人形機器人、飛行汽車等具身智能載體上的落地提供技術底座。
另,小鵬二代VLA雖然也具有“黑箱”特徵,但小鵬為其“黑箱”注入了一個明確的學習範式——從視頻中學習物理規律,這在一定程度上提供了可解釋的方向。
以上是我的一點理解,您有什麼想法,歡迎評論交流。