訂閱
糾錯
加入自媒體

從“模仿”走向“思考”:VLA司機大模型帶來的變化

2025-07-31 13:54
芝能智芯
關注

芝能智芯出品

VLA(Vision-Language-Action)駕駛大模型是理想汽車在2025年八月即將實現重要落地的輔助駕駛。

不同于第一代的結構化算法和第二代的端到端系統(tǒng),采用了新的視覺-語言-行為的多模態(tài)架構,使得車輛可以同時理解空間地理、語言意圖和行為合理性,實現更好的出行體驗。

Part 1 VLA模型結構

VLA架構的本質,是在原端到端 VA(Vision-Action)模型基礎上引入了Language思維模塊,從而構建出能"理解"場景、"推理"路徑并能"記憶"行為的大腦式模型。

設計的初衷是突破模仿學習的天花板——端到端架構,隨著數據量擴增,其MPI(Miles per Intervention)提升逐漸趨緩,而VLA借助思維鏈條的加入,提升了模型泛化與適應未知場景的能力。

VLA司機大模型,讓輔助駕駛變得更聰明、更安全,也更貼近人類司機的感覺,能“思考”和“理解”你在路上的需求。

◎ 提前避險,像老司機一樣判斷,過去的系統(tǒng)常常一到丁字路口就急剎車。但 VLA大模型會判斷是否有盲區(qū)或潛在危險,提前減速,更加安全、穩(wěn)妥,開起來讓人放心。

◎ 加減速更自然,轉彎超車也順滑,能更好地感知周圍環(huán)境,控制車輛的加速、剎車和轉向,像一個技術熟練的司機,開車穩(wěn)、坐車也舒服,不再有突然一腳油門或急剎那種不適感。

◎ 連續(xù)溝通,完成一整套任務,你可以直接對它說:“先去加油,再接孩子。”VLA司機大模型能理解多個指令之間的關系,自動規(guī)劃路線,連續(xù)完成多個任務,像個真正聽得懂話、有邏輯的人類司機。

VLA采用了0.4×8的MoE結構,為車載平臺量身定制,在有限算力下平衡了多場景適配能力與推理速度。模型不僅能完成路徑決策,還能接受連續(xù)語言指令完成串聯(lián)任務,實現“與司機對話”的連續(xù)駕駛體驗。

通過對通識知識、空間結構和人類駕駛風格的大量遷移學習,VLA逐步形成“擬人化”駕駛策略。

模型訓練方面,理想在云端搭建了13 EFLOPS的算力平臺,其中3 EFLOPS用于推理,10 EFLOPS用于訓練,并基于此構建了32B參數量的多模態(tài)大模型。

該模型通過強化學習與模型蒸餾壓縮為3.2B規(guī)模的MoE架構,并成功部署于車端Thor芯片上。該芯片采用INT8和FP8混合精度推理,有效算力達到1000 TOPS,在10Hz幀率下實現完整的視覺語言交互響應。

為了提升推理效率,理想引入了多項模型壓縮策略,如Diffusion流匹配推理步驟壓縮、MoE路由器動態(tài)激活機制等。例如傳統(tǒng)Diffusion模型需10步生成路徑,而通過Flow Matching方式壓縮至2步推理,有效提升10Hz幀率下響應時延。

VLA從架構設計、數據結構、工程實現構建了一個具備思維與執(zhí)行能力的駕駛體,在自動駕駛模型向GPT時刻邁進的過程中率先實現了工程落地。

Part 2 從芯片壓榨到世界仿真

在VLA落地過程中,需要通過工程優(yōu)化將既有算力平臺推至極限。

Thor芯片在理論算力700TOPS的基礎上,通過INT8與FP8混合精度優(yōu)化、PTX底層重寫、CUDA魔改等手段實現1000 TOPS的推理效率,配合10Hz高幀率運行VLA模型來進行。

甚至在更低算力的Orin-X芯片上,也通過INT4混合精度與MoE精簡部署,實現與Thor平臺幾乎相同的推理體驗,保持同步推送能力。

數據與訓練能力構成另一個核心支柱。數據閉環(huán)已累計超12億有效駕駛數據片段,并以“老司機風格”為標注準則,清洗訓練數據以符合高安全性、舒適度與規(guī)則要求。

當前模型以1000萬Clips為基礎訓練量,通過QAT量化訓練與自研工具鏈完成FP32至FP8/INT4模型的穩(wěn)定收斂,并結合RLHF強化學習機制,確保每一版本模型能力不斷逼近“人駕10倍安全性”的目標。

VLA模型真正實現飛躍的關鍵并非訓練數據本身,而是世界模型與仿真環(huán)境的落地。

在物理世界成本高昂、反饋周期慢的背景下,理想自研的世界模型構建起一個完整具身智能訓練空間,通過構建具Agent智能的3D物理環(huán)境,模擬紅綠燈可視性、車輛行為反饋、碰撞響應等細節(jié),實現在90%以上場景中以仿真方式替代實車訓練。

系統(tǒng)支持每日30萬公里以上的測試里程,總計仿真數據已超4000萬公里。每一個仿真樣本都經由大模型評測、評分、反饋并強化訓練,構成完整閉環(huán)。

在OTA 7.5“超級對齊”升級版本中,VLA模型通過對40萬+仿真場景的覆蓋與評估,得分已全面超越上一代端到端模型。

理想的世界模型仿真能力構成VLA模型最重要的技術壁壘,加速了模型優(yōu)化進程,還建立起行業(yè)領先的評測體系與行為獎勵機制,為強化學習提供真實反饋,在模型具身智能能力不斷增強的過程中,保障安全性、舒適性與合規(guī)性的有序進化。

小結

VLA可能是一條輔助駕駛的路徑,從感知、決策、執(zhí)行三元分離走向類人推理、交互與自主行為的整合。VLA的真正價值,不僅是駕駛更平順、接管更少、交流更自然的“司機模型”。

       原文標題 : 從“模仿”走向“思考”:VLA司機大模型帶來的變化

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號