解碼特斯拉新AI芯片戰(zhàn)略 :從Dojo到AI5和AI6推理引擎
埃隆·馬斯克于2025年8月7日宣布了一項大膽的戰(zhàn)略轉變,宣布特斯拉將精簡其內(nèi)部AI芯片設計工作,也就是我們之前文章《真突發(fā),特斯拉解散Dojo超算團隊和業(yè)務》提到的解散Dojo超級計算機團隊,專注于支持自動駕駛汽車和機器人實時決策的推理芯片。
馬斯克認為,特斯拉分割資源,同時擴展兩款截然不同的AI芯片(超算訓練的Dojo和推理應用的AI 5/6)設計,這毫無意義。
他認為特斯拉的AI5、AI6及后續(xù)芯片在推理方面將非常出色,至少在訓練方面也相當出色。所以,特斯拉芯片將將所有精力都集中在AI 5/6芯片上。
而對于在超級計算機集群中用于訓練的芯片,馬斯克認為將AI5和AI6芯片結合起來可以形成“Dojo 3”系統(tǒng)。
馬斯克表示,下一代 AI5 芯片將于 2026 年底生產(chǎn),并于今年7月宣布與三星電子達成 165 億美元的AI6 芯片采購協(xié)議,但沒有提供生產(chǎn)時間表。
那么特斯拉為什么要這么做?接下來特斯拉AI芯片如何發(fā)展?采用什么樣的技術路徑?
本文將探討特斯拉的AI芯片之旅、根據(jù)海外信息總結其下一代芯片的架構和技術,希望給大家?guī)硪恍┬畔ⅰ?/p>
Dojo 超級計算機和特斯拉的 AI 野心
Dojo超級計算機于2021年推出,體現(xiàn)了特斯拉利用其全球車隊的PB級數(shù)據(jù)來訓練全自動駕駛(FSD)模型的雄心壯志。Dojo基于專有的D1芯片構建,目標是實現(xiàn)超過百億億次浮點運算的計算性能,以加速神經(jīng)網(wǎng)絡訓練。
在這個項目因其規(guī)模之大而備受贊譽——分析師曾根據(jù)其顛覆數(shù)據(jù)中心計算市場的潛力,將Dojo估值定為5000億美元。
而到了2025年的今天,如我們文章《塵埃落定!Model Y就是“平價特斯拉”:成本削減大揭秘》中講到特斯拉的財報數(shù)字,在中國電動車崛起等影響下不斷遭遇“滑鐵盧”。以2025 Q2為例特斯拉全球交付量暴跌14%,銷售額下降12 %,至224億美元,創(chuàng)下至少十年來的最大降幅。利潤縮水16%,至11億美元。
這些,就讓Dojo 的發(fā)展的資源和成本問題更加凸顯:先進工藝節(jié)點制造定制硅片需要大量的資本支出和較長的交貨時間。對訓練和推理架構的平行投資使工程資源捉襟見肘。
此外,從原型模塊擴展到全尺寸吊艙架構這里面的工程落地技術難點,也不那么容易。
最后,人工智能芯片巨頭英偉達的競爭腳步,也是讓人難以抵抗。
所以,現(xiàn)在2025年中期,特斯拉內(nèi)部逐漸意識到,維持兩種截然不同的芯片架構——Dojo用于訓練,AI 5/6用于推理——并非理想之選。
不過也有消息稱Dojo 其實就是AI6的實驗,換句話說AI6可能會采用Dojo實踐的技術理論。
解碼特斯拉 AI5芯片
特斯拉的 AI5 芯片計劃于 2026 年投入生產(chǎn),根據(jù)網(wǎng)絡信息,特斯拉AI5預計可達到2000–2500 TOPS(每秒萬億次運算),使用int8精度,峰值功率達800瓦。
架構方面,AI5 具備先進的矩陣乘法引擎,支持混合精度(FP16、BFLOAT16、INT8),并采用統(tǒng)一緩存層次結構,優(yōu)化FSD任務性能。
其實 AI5的設計于2025年7月完成,由于戰(zhàn)略調(diào)整和出口限制,生產(chǎn)推遲至2026年第四季度。
由于高性能,AI5面臨出口限制,需在某些市場提供性能受限版本以符合美國法規(guī)。采用雙層限制系統(tǒng),限制“友好國家”的購買,并在“競爭國家”實施額外限制。
那么中國市場有可能會是閹割版的 AI5了。那么特斯拉AI5采用了哪些關鍵技術?
異構計算核心,AI5 采用由三種集群類型組成的異構結構:
張量加速器:這些固定功能單元可處理 16 位和 8 位精度的批量矩陣乘法,支持常見的 AI 基元(卷積、GEMM、全連接層)。利用脈動陣列拓撲,每個張量加速器可實現(xiàn) >1TFLOP/W 的效率。
矢量 DSP:針對不規(guī)則工作負載(激活函數(shù)、元素運算、規(guī)范化、索引)進行優(yōu)化的可編程內(nèi)核。它們采用 VLIW(超長指令字)架構,并支持預測執(zhí)行,從而減少了分支密集型代碼的流水線停頓。
標量微控制器:輕量級 RISC-V 內(nèi)核,專用于控制平面任務:任務調(diào)度、I/O 管理和電源門控協(xié)調(diào)。通過在此卸載非矩陣任務,張量加速器和 DSP 可維持峰值吞吐量。
與純粹以矩陣為中心的設計相比,策略性地卸載控制和不規(guī)則處理可以將整體利用率提高15-20%。
推理中最持久的瓶頸之一是內(nèi)存帶寬。在AI5中,Tesla 采用高帶寬內(nèi)存集成:封裝 HBM3 可最大限度地減少 DRAM 和計算單元之間的數(shù)據(jù)傳輸延遲。AI5集成了多層內(nèi)存層次結構:
SRAM 暫存器:每個張量簇擁有總計 2 MB 的本地存儲體,旨在實現(xiàn)亞 1ns 級訪問。這些存儲體緩存輸入激活和權重塊,從而實現(xiàn)短小重復的計算循環(huán)零 DRAM 流量。
統(tǒng)一二級緩存: eDRAM 中實現(xiàn)的 64 MB 高帶寬緩存位于集群和全局 DRAM 接口之間。憑借 2 TB/s 的總帶寬,二級緩存可作為較大模型參數(shù)和特征圖的暫存區(qū)。
LPDDR5X 外部 DRAM: AI5 最高支持 24 GB,每個引腳運行速度為 8 Gbps。Tesla 的定制內(nèi)存控制器會根據(jù)工作負載強度動態(tài)調(diào)整頻率和時序,從而在稀疏推理或提前退出推理場景下降低速度(和功耗)。
稀疏計算優(yōu)化:硬件支持動態(tài)稀疏性,以降低推理過程中的功耗。這個是不是很熟悉,當前理想汽車在英偉達Thor U上布局VLA的時候就采用此類方法。
AI推理工作負載對較低的數(shù)值精度的容忍度越來越高。特斯拉在 AI5 中采用了混合精度策略:
FP8 和 INT4/INT2 單元:對于視覺和感知模型,許多層可以以 8 位浮點 (FP8) 甚至 4 位整數(shù)執(zhí)行,且精度不會降低 1% 至 2%。AI5 集成了專用的 FP8 數(shù)據(jù)路徑和 INT4 乘法累加器,在量化模式下使 MAC 吞吐量翻倍。
動態(tài)范圍校準:片上校準電路可監(jiān)測初始批次中的激活分布,并自動調(diào)整 INT4 量化的零點和比例因子。這消除了部署流程中的手動量化步驟。
混合精度調(diào)度:基于改進的 TensorRT 和 Tesla 內(nèi)部優(yōu)化器構建的軟件堆棧,以最佳精度調(diào)度每一層。關鍵的規(guī)范化或跳過連接以 16 位運行,而高度可并行化的卷積層則以 4 位運行。
將這些混合精度模式直接集成到硬件數(shù)據(jù)路徑中至關重要。僅僅在軟件中支持量化是不夠的;芯片必須設計成能夠無縫切換模式,否則系統(tǒng)開銷會侵蝕功耗,而特斯拉AI 5的設計就考慮了這些因素。
關于特斯拉AI6
除了 AI5 之外,特斯拉還與三星代工廠簽署了一項價值 165 億美元的協(xié)議,共同研發(fā)其 AI6 芯片。這些下一代設備將進一步優(yōu)化節(jié)點擴展至 3 納米或更低,并集成增強的片上互連,以支持跨多個芯片的集群推理。特斯拉工程師預計,在實際的全自動駕駛 (FSD) 場景中,AI6 的性能將比 AI5 提升 2 到 3 倍。
具體關于AI6的技術信息很少,有的話,也就是前文說的AI6就是Dojo。所以,有觀點說Dojo 不是一個失敗的項目,而是一個重要的實驗階段:
D1芯片:大規(guī)模并行處理驗證
D2計劃:精密開關測試
AI5:統(tǒng)一架構的部分驗證
AI6:全面實現(xiàn)集成
從可配置偏差到模塊化的進展、更高精度中間格式的一致使用以及硬件級操作交錯都體現(xiàn)了特斯拉多年來執(zhí)行的連貫技術策略。
寫在最后
特斯拉是物理人工智能的成功探索者,其在物理人工智能領域的軟硬探索是相當?shù)某晒颓把兀I了時代。不過遺憾的是特斯拉現(xiàn)在對自己的技術信息隱藏的很深,所以很難找到特斯拉最新的相關技術信息,本文的技術信息源頭不確定,所以需要斟酌看,懂行的可以留言討論交流。
原文標題 : 解碼特斯拉新AI芯片戰(zhàn)略:從Dojo到AI5和AI6推理引擎

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字