訂閱
糾錯
加入自媒體

VLA模型如何重塑具身智能 —— 8家國內(nèi)外典型具身智能VLA模型梳理與分析

一、國外典型具身智能VLA架構(gòu)

國外4家典型的具身智能VLA模型:谷歌DeepMind RT-2、Physical AI 

π0 、Figure AI Helix 、英偉達(dá)GR00T N1。

1. 谷歌DeepMind —— RT2

2023年7月,谷歌DeepMind發(fā)布具身智能視覺-語言-動作模型(VLA)RT-2(Robotics Transformer 2)。其核心設(shè)計是使用互聯(lián)網(wǎng)規(guī)模的網(wǎng)絡(luò)數(shù)據(jù)和機器人動作軌跡數(shù)據(jù)對預(yù)訓(xùn)練好的視覺-語言模型(VLM)進(jìn)行聯(lián)合微調(diào)生成VLA模型。核心目標(biāo)是將VLM模型的知識遷移到機器人控制中,實現(xiàn)端到端的語義推理與動作生成。

1)模型架構(gòu)

RT-2以預(yù)訓(xùn)練的視覺-語言模型為核心骨干,通過動作Token 化將機器人控制任務(wù)統(tǒng)一到自然語言生成框架中,形成端到端單一模型架構(gòu)。該模型分別以PaLI-X 和 PaLM-E 兩種VLM 架構(gòu)構(gòu)建了對應(yīng)的實例模型RT-2-PaLI-X 與 RT-2-PaLM-E 。

谷歌RT-2模型架構(gòu)(圖片來源:谷歌論文)

2)聯(lián)合微調(diào)(Co-Fine-Tune)

將機器人動作數(shù)據(jù)(來自RT-1)與網(wǎng)絡(luò)數(shù)據(jù)混合,共同輸入模型進(jìn)行聯(lián)合微調(diào)。其中,網(wǎng)絡(luò)數(shù)據(jù)內(nèi)容包括視覺問答(VQA)、圖像描述、非結(jié)構(gòu)化圖文交織樣本等。機器人動作數(shù)據(jù)為13臺機器人持續(xù)(歷經(jīng))17個月采集的辦公環(huán)境中的廚房場景數(shù)據(jù)(與RT-1訓(xùn)練所使用的數(shù)據(jù)相同)。

在具體實現(xiàn)方案中,谷歌DeepMind通過提高機器人動作數(shù)據(jù)集的采樣權(quán)重,以平衡每批次訓(xùn)練數(shù)據(jù)中機器人動作數(shù)據(jù)與網(wǎng)絡(luò)數(shù)據(jù)的比例。

模型聯(lián)合微調(diào)的關(guān)鍵步驟在于建立模型現(xiàn)有詞匯表與離散動作空間之間的映射關(guān)系。為此,需要預(yù)先保留256 個標(biāo)記(tokens)作為專用的動作標(biāo)記。具體選擇哪些標(biāo)記作為動作標(biāo)記,取決于所使用的視覺語言模型(VLM)的分詞方案:

PaLI-X:由于其分詞方案為每個不超過 1000 的整數(shù)分配了唯一的標(biāo)記,因此可直接將 action bins 映射到對應(yīng)的整數(shù)標(biāo)記上。

PaLM-E:該模型的分詞方案不包含數(shù)字的直接表示,因此需要覆蓋詞匯表中 256個使用頻率最低的標(biāo)記,將它們重新定義為動作詞匯表。

DeepMind通過實驗證明 —— 提升機器人性能的關(guān)鍵訓(xùn)練技巧在于:將機器人數(shù)據(jù)與原始網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行聯(lián)合微調(diào),而非僅對機器人數(shù)據(jù)實施簡單微調(diào)。聯(lián)合微調(diào)能生成泛化能力更強的策略,因為在此過程中,策略同時接觸網(wǎng)絡(luò)規(guī)模數(shù)據(jù)的抽象視覺概念和微調(diào)過程中的低層級機器人動作,而非僅局限于機器人動作。

3)動作Token化機制

RT-2 的動作 Token 化機制是其實現(xiàn)語義 - 動作對齊的核心技術(shù),通過離散化編碼、共享詞匯表空間和VLM語義賦能三個層面的創(chuàng)新,將機器人控制信號轉(zhuǎn)化為可被視覺 - 語言模型(VLM)直接處理的離散標(biāo)記。

其中,動作離散化編碼采用與RT-1相同的離散化方案。比如,將連續(xù)動作空間(如機械臂6自由度位姿)均勻量化為256個離散區(qū)間。

另外,使用共享詞匯表空間。比如,在預(yù)訓(xùn)練VLM(如PaLI-X)的文本詞匯表中新增512個專用動作Token,動作Token被嵌入預(yù)訓(xùn)練VLM的詞匯表,通過同一Transformer解碼器自回歸生成混合序列,實現(xiàn)語言與動作的符號統(tǒng)一。

RT-2 與標(biāo)準(zhǔn)VLM模型的核心區(qū)別在于:RT-2必須輸出有效的動作token才能在真實機器人上執(zhí)行。為確保 RT-2 在解碼過程中輸出有效動作標(biāo)記,通過以下方式約束其輸出詞匯表:

機器人動作任務(wù)場景:當(dāng)模型接收到機器人動作任務(wù)提示時,僅允許采樣有效的動作tokens。

標(biāo)準(zhǔn)視覺語言任務(wù):模型仍然被允許輸出所有可能的自然語言tokens(如問答、圖像描述等)。

2. Physical Intelligence(PI)—— π0模型

2024 年10月 ,Physical Intelligence(PI)正式發(fā)布機器人領(lǐng)域端到端視覺-語言-動作(VLA)模型 π0。

2025年2月,PI宣布開源基礎(chǔ)版π0與快速推理版π0-FAST,開源內(nèi)容涵蓋預(yù)訓(xùn)練模型參數(shù)、任務(wù)微調(diào)檢查點及全流程推理代碼,為學(xué)術(shù)界與產(chǎn)業(yè)界提供完整的具身智能開發(fā)框架。

1)模型整體架構(gòu)

π0 模型整體架構(gòu)示意圖(圖片來源:PI論文)

π0 模型包括一個預(yù)訓(xùn)練的VLM 模型和一個采用條件流匹配技術(shù)的動作專家模型(Action expert)。

其中,VLM 直接基于谷歌開源的30億參數(shù)規(guī)模的PaliGemma 模型構(gòu)建;動作專家模型采用獨立部署的3億參數(shù)權(quán)重,通過全層雙向跨模態(tài)注意力交互機制與 VLM 深度交互。

該模型基于雙模塊架構(gòu)實現(xiàn)端到端控制。在具體的數(shù)據(jù)處理與動作生成流程中:

VLM 主干網(wǎng)絡(luò)(PaliGemma)負(fù)責(zé)處理圖像與文本輸入并提取語義特征,機器人本體感知數(shù)據(jù)(如關(guān)節(jié)角度、力反饋)通過獨立編碼器嵌入;兩類信息經(jīng)跨模態(tài)投影層映射至統(tǒng)一空間,形成視覺 - 語言 - 物理信號的融合表征。

動作專家模塊以該融合表征為條件,依托條件流匹配技術(shù)與動作分塊算法,以50Hz 高頻生成連續(xù)動作分布,直接驅(qū)動機器人精準(zhǔn)執(zhí)行復(fù)雜靈巧任務(wù)。

2)模型訓(xùn)練

在訓(xùn)練策略上,π0模型采用了預(yù)訓(xùn)練+ 后訓(xùn)練(微調(diào))的模式。先在多樣性的大規(guī)模數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,再用高質(zhì)量數(shù)據(jù)進(jìn)行后訓(xùn)練,從而達(dá)到所需的精細(xì)控制能力。

π0模型的預(yù)訓(xùn)練和后訓(xùn)練(圖片來源:PI論文)

a. 預(yù)訓(xùn)練階段

在預(yù)訓(xùn)練階段,預(yù)訓(xùn)練數(shù)據(jù)集應(yīng)覆蓋多樣化任務(wù),并使模型構(gòu)建跨任務(wù)、跨本體的通用動作生成范式,實現(xiàn)從“單一任務(wù)模仿” 到 “動態(tài)場景泛化” 的能力躍升。

VLM預(yù)訓(xùn)練使用數(shù)據(jù):大規(guī)模的互聯(lián)網(wǎng)數(shù)據(jù)(圖像、視頻以及文本)。實際上,PI團(tuán)隊?wèi)?yīng)該是直接使用Google開源 VLM —— PaliGemma的預(yù)訓(xùn)練權(quán)重。

動作專家模型預(yù)訓(xùn)練使用數(shù)據(jù):開源真機數(shù)據(jù)集Open X-Embodiment 和 PI自己基于遙操作采集的真機數(shù)據(jù)(涵蓋7種機器人本體和68項任務(wù)),數(shù)據(jù)總時長超過10000小時。

b. 后訓(xùn)練階段

在后訓(xùn)練階段,針對特定任務(wù),依靠PI自己收集的高質(zhì)量真機數(shù)據(jù)集去訓(xùn)練模型。通過模仿學(xué)習(xí)框架,進(jìn)一步提高模型在特定任務(wù)上的成功率,目標(biāo)是支持完成疊衣服、清理餐桌等復(fù)雜靈巧的下游任務(wù)。

3. Figure AI —— Helix模型

2025年2月,F(xiàn)igure AI發(fā)布了通用具身基礎(chǔ)模型Helix ,該模型采用雙系統(tǒng)架構(gòu):系統(tǒng)S1(快思考系統(tǒng))+ 系統(tǒng)S2 (慢思考系統(tǒng))。

Helix系統(tǒng)架構(gòu)(圖片來源:Figure AI)

1)S1系統(tǒng):一個80M參數(shù)規(guī)模的Transformer模型,依賴一個完全卷積的多尺度視覺骨干網(wǎng)絡(luò)進(jìn)行視覺處理。

S系統(tǒng)以 200Hz的頻率輸出完整的上半身人形控制,包括期望的手腕姿態(tài)、手指彎曲和外展控制,以及軀干和頭部方向目標(biāo)。

該系統(tǒng)模型的訓(xùn)練主要依賴于機器人真機數(shù)據(jù)。

2)S2系統(tǒng):一個7B參數(shù)規(guī)模的預(yù)訓(xùn)練VLM模型,用于處理機器人單目視覺圖像和機器人狀態(tài)信息(包括手腕姿態(tài)和手指位置),并將它們投影到視覺語言嵌入空間中。

S2 系統(tǒng)將所有語義任務(wù)相關(guān)信息提煉為一個連續(xù)的潛在向量,以7-9 Hz的頻率傳遞給 S1系統(tǒng) ,為機器人的行為決策提供高層次的指導(dǎo)。

該系統(tǒng)模型的訓(xùn)練主要依賴于大規(guī)模的互聯(lián)網(wǎng)文本、圖片以及視頻數(shù)據(jù)。

3)兩者之間的關(guān)聯(lián):系統(tǒng)1與系統(tǒng)2兩者之間解耦,每個系統(tǒng)不僅能夠進(jìn)行獨立迭代,而且,每個系統(tǒng)都可以在其最佳時間尺度上運行。比如,S2系統(tǒng)可以「慢慢思考」高層次目標(biāo),而S1系統(tǒng)可以「快速思考」機器人實時執(zhí)行以及需要調(diào)整的動作。

S1系統(tǒng)與 S2系統(tǒng)分別部署于機器人上的兩塊獨立專用 GPU上,二者對GPU要求不同:

S1系統(tǒng)需以 200Hz 高頻輸出連續(xù)動作,要求低延遲和高能效,以確保實時控制;

S2系統(tǒng)需要部署7B參數(shù)的 VLM模型, 對算力需求更高,適合部署在高顯存、高算力的GPU上。

在演示視頻中,兩臺采用相同Helix 模型權(quán)重的人形機器人,無需訓(xùn)練或角色分配,即可通過自然語言協(xié)作實現(xiàn)零樣本雜貨存放。

Helix 通過架構(gòu)創(chuàng)新、數(shù)據(jù)效率提升與硬件適配優(yōu)化,突破了傳統(tǒng)機器人模型依賴多任務(wù)獨立訓(xùn)練的技術(shù)局限,這種設(shè)計使其在家庭服務(wù)、工業(yè)協(xié)作等場景中,具備任務(wù)快速遷移與場景拓展的潛力。

4. 英偉達(dá) —— GR00T N1

在2025年3月的GTC開發(fā)者大會上,英偉達(dá)推出全球首個開源、可定制的通用人形機器人模型 GR00T N1。

GR00T N1是一個雙系統(tǒng)架構(gòu)的視覺-語言-動作(VLA)模型,采用流匹配(Flow-Matching)技術(shù)來學(xué)習(xí)動作生成。

GR00T N1模型架構(gòu)簡化版(圖片來源:英偉達(dá)論文)

(1)“系統(tǒng)2”是基于視覺-語言模型(VLM)的推理模塊,負(fù)責(zé)深度推理與規(guī)劃,類似人類的"思考中樞",運行頻率較低(10Hz)。

在英偉達(dá)L40 GPU上運行預(yù)訓(xùn)練的視覺語言模型(如 Eagle-2 VLM),處理機器人的視覺感知圖像信息和語言指令,以解釋環(huán)境并理解任務(wù)目標(biāo)以及語言指令。

圖像輸入→ 使用圖像編碼器(Vision Encoder)編碼為Image Tokens 

語言指令輸入→ 使用文本分詞器(Text Tokenizer)轉(zhuǎn)化為文本標(biāo)記

(2)“系統(tǒng)1”是基于擴散變換器(DiT)的動作模塊,負(fù)責(zé)快速動作生成,類似人類的"運動中樞",運行頻率更高(120Hz)。

DiT處理機器人的本體感知狀態(tài)和動作,這些信息隨后與經(jīng)過Eagle-2 VLM主干網(wǎng)絡(luò)處理后輸出的圖像標(biāo)記(image tokens)和文本標(biāo)記(text tokens)進(jìn)行交叉注意力運算,最終輸出去噪后的電機動作。

輸入:系統(tǒng)2的輸出Tokens(Image Tokens 和 Text Tokens)+ 機器人本體狀態(tài)(如關(guān)節(jié)位置等)+ 帶噪聲的動作向量。

處理:通過交叉注意力機制融合多源輸入,逐步去噪生成動作序列。

輸出:去噪后的運動動作(如抓取軌跡)。

GR00T N1模型架構(gòu)詳情版(圖片來源:英偉達(dá)論文)

備注:英偉達(dá)公開發(fā)布的GR00T-N1-2B 模型總參數(shù)為22億,其中視覺 - 語言模型(VLM)包含13.4 億參數(shù)。在 L40 GPU 上使用 bf16 精度時,采樣16個動作片段的推理時間為63.9毫秒。

“系統(tǒng)1”和“系統(tǒng)2”都是基于Transformer構(gòu)建的神經(jīng)網(wǎng)絡(luò),二者在訓(xùn)練過程中緊密耦合、聯(lián)合優(yōu)化,以實現(xiàn)推理與執(zhí)行的高效協(xié)同。

GR00T N1模型預(yù)訓(xùn)練所使用的數(shù)據(jù)類型:真實機器人演示數(shù)據(jù)、合成數(shù)據(jù)(Omniverse生成)以及互聯(lián)網(wǎng)上的人類視頻數(shù)據(jù)。

用于機器人基礎(chǔ)模型訓(xùn)練的“數(shù)據(jù)金字塔”(圖片來源:英偉達(dá)論文)

應(yīng)用案例:1X Technologies、Agility Robotics、Boston Dynamics、傅利葉等機器人公司已接入GR00T N1,利用該基礎(chǔ)模型及其配套工具鏈開發(fā)新一代機器人產(chǎn)品,并在不同的應(yīng)用場景中進(jìn)行落地實踐。

二、國內(nèi)典型具身智能VLA模型

國內(nèi)4家典型的具身智能VLA模型:星動紀(jì)元ERA-42、銀河通用GraspVLA、智元機器人Genie Operator-1(GO-1)、靈初智能Psi-R1。

1. 星動紀(jì)元 —— ERA-42

2024年12月,星動紀(jì)元推出端到端原生機器人大模型ERA-42。該模型采用高層次規(guī)劃和低層次控制的雙系統(tǒng)架構(gòu)。系統(tǒng)之間使用latent變量進(jìn)行通信連接,實現(xiàn)了兩者之間的高效信息傳遞和協(xié)同工作。

ERA-42模型架構(gòu)(初版)

a. 高層次規(guī)劃系統(tǒng):采用7B參數(shù)的Instructblip視覺語言模型,負(fù)責(zé)將視覺信息與語言指令轉(zhuǎn)化為蘊含常識知識的潛在特征,支持長期場景理解(含任務(wù)規(guī)劃與糾錯)。

它相當(dāng)于是人類的“慢思考”系統(tǒng),可以對任務(wù)指令進(jìn)行深入理解,生成高層次的動作規(guī)劃,為機器人的行為提供戰(zhàn)略指導(dǎo)。

其中,InstructBLIP 由預(yù)訓(xùn)練視覺編碼器(采用ViT架構(gòu))、大語言模型(LLM)、可學(xué)習(xí)查詢 tokens 以及 Q-Former 組成。

b. 低層次控制系統(tǒng):采用40M參數(shù)的緊湊型視覺驅(qū)動動作策略的Transformer網(wǎng)絡(luò),處理短期場景認(rèn)知,融合歷史觀測與視覺語言模型的潛在特征。

它相當(dāng)于是人類的“快思考”系統(tǒng),根據(jù)高層次規(guī)劃系統(tǒng)的輸出結(jié)果以及實時的環(huán)境反饋,它可以實現(xiàn)高頻地精確控制機器人的動作,確保動作的準(zhǔn)確性和實時性。

工作原理:指令經(jīng)由視覺語言模型(VLM)轉(zhuǎn)化為連續(xù)潛在表征(continuous latent),并與采樣視覺觀測數(shù)據(jù)共同緩存至潛在緩沖區(qū)(latent buffer)。在推理的每一步:

預(yù)訓(xùn)練視覺編碼器基于最新潛在表征對視覺觀測進(jìn)行條件化編碼;

降維后的視覺語言標(biāo)記(reduced vision-language tokens)通過條件化動作頭(conditioned action head)解碼為底層動作。

ERA-42 初版基于 HiRT 架構(gòu)構(gòu)建,而在后續(xù)的迭代版本中通過集成動作預(yù)測擴散器(PAD)升級了世界模型,形成以 HiRT 為基礎(chǔ)框架、PAD 為預(yù)測模塊的復(fù)合架構(gòu)。

2)模型訓(xùn)練

模型訓(xùn)練使用數(shù)據(jù)類型:大規(guī)模視頻數(shù)據(jù)(預(yù)訓(xùn)練)+少部分基于遙操作的真機數(shù)據(jù)(后訓(xùn)練)。

預(yù)訓(xùn)練階段:由于采用融入世界模型的方式,ERA-42直接利用未標(biāo)注的原始視頻數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,使模型聚焦于原始視頻本身的預(yù)測,而非對物體姿態(tài)、關(guān)鍵點等處理后的信息進(jìn)行預(yù)測。此舉旨在最大程度保留信息完整性,規(guī)避因人為定義的規(guī)則、范式或先驗知識導(dǎo)致的信息損耗。

后訓(xùn)練階段:ERA-42 引入強化學(xué)習(xí)技術(shù),通過構(gòu)建獎勵機制引導(dǎo)模型探尋最優(yōu)動作策略。此階段的模型訓(xùn)練主要采用基于遙操作方式獲取的真機數(shù)據(jù)。

ERA-42模型訓(xùn)練使用數(shù)據(jù)(圖片來源:星動紀(jì)元)

應(yīng)用效果:基于ERA-42的能力, 星動紀(jì)元自研的五指靈巧手星動X HAND1可使用包括不限于螺釘鉆、錘子、取液槍等多種多樣的工具,完成更通用、靈巧性更強、復(fù)雜度更高的百種以上操作任務(wù)。并且,可以持續(xù)在同一個模型下學(xué)習(xí)新的技能。

2. 銀河通用 —— GraspVLA

2025年1月,銀河通用聯(lián)合北京智源人工智能研究院(BAAI)及北京大學(xué)和香港大學(xué)研究人員發(fā)布端到端具身抓取基礎(chǔ)大模型GraspVLA。

1)模型整體架構(gòu)

GraspVLA 由一個自回歸視覺語言骨干網(wǎng)絡(luò)(VLM)和一個基于流匹配的動作專家模型組成,兩個模塊通過漸進(jìn)式動作生成(PAG)機制連接。

其中,VLM模塊包括一個大語言模型(InternLM2 1.8B版本)一個視覺編碼器(融合了凍結(jié)參數(shù)的DINO-v2和SigLIP模型提取的特征)以及一個負(fù)責(zé)將視覺特征空間映射到語言特征空間的可訓(xùn)練投影器。

GraspVLA系統(tǒng)架構(gòu)(圖片來源:銀河通用)

主要作用:VLM的作用是獲取觀察圖像和文本指令,用于視覺-語言聯(lián)合感知。動作專家模塊的主要作用是進(jìn)行細(xì)粒度的末端執(zhí)行器的動作生成。

工作原理:在數(shù)據(jù)層面,模型利用互聯(lián)網(wǎng)基礎(chǔ)數(shù)據(jù)與合成動作數(shù)據(jù)的協(xié)同效應(yīng),流程為:首先為合成數(shù)據(jù)和網(wǎng)絡(luò)數(shù)據(jù)生成目標(biāo)物體的2D 邊界框;隨后,僅針對合成數(shù)據(jù)集,由 VLM 在機器人基坐標(biāo)系中進(jìn)一步預(yù)測目標(biāo)的抓取姿態(tài);最終,動作專家基于 VLM 處理輸入及中間推理令牌(tokens) 時產(chǎn)生的鍵值緩存(key-value cache),為合成數(shù)據(jù)集生成動作塊(action chunk)。

2)模型訓(xùn)練

GraspVLA的模型訓(xùn)練包含預(yù)訓(xùn)練和后訓(xùn)練兩部分。其中,預(yù)訓(xùn)練是針對通用需求,主要采用大規(guī)模合成數(shù)據(jù)去訓(xùn)練。后訓(xùn)練是針對專用需求,主要基于少部分真機數(shù)據(jù)訓(xùn)練。

a. 預(yù)訓(xùn)練

在沒有大規(guī)模真實數(shù)據(jù)的條件下,銀河通用以10億級規(guī)模的仿真合成數(shù)據(jù)(SynGrasp-1B)為基礎(chǔ)對GraspVLA進(jìn)行預(yù)訓(xùn)練,實現(xiàn)了支持通用需求的基礎(chǔ)模型 —— “通才”,掌握了包括高度泛化、平面位置泛化、物體類別泛化、光照泛化、干擾物泛化、背景泛化和閉環(huán)能力在內(nèi)的七大泛化能力,能夠在真實場景中實現(xiàn)零樣本抓取,無需額外訓(xùn)練即可應(yīng)對未見過物體的復(fù)雜擺放和動態(tài)環(huán)境變化。

SynGrasp-1B —— 10億級規(guī)模的合成數(shù)據(jù)(圖片來源:銀河通用)

備注:SynGrasp-1B 是基于先進(jìn)光線追蹤渲染技術(shù)與物理模擬系統(tǒng)構(gòu)建的十億幀級抓取數(shù)據(jù)集。該數(shù)據(jù)集涵蓋 240個物體類別、10680 個實例,依托160 張 NVIDIA 4090 GPU 組成的計算集群,歷時10天完成十億幀數(shù)據(jù)的生成工作。

b. 后訓(xùn)練

針對專用需求,需要再對基礎(chǔ)模型進(jìn)行后訓(xùn)練,即進(jìn)一步通過小樣本真機數(shù)據(jù)進(jìn)行微調(diào),可使其成長為特定場景應(yīng)用下的“專才”。例如,面向工業(yè)場景中抓取接線座、三角板等特殊零部件的需求,僅需少量真實數(shù)據(jù)后訓(xùn)練,模型就能快速掌握工業(yè)術(shù)語,實現(xiàn)特定零部件的精準(zhǔn)抓取,進(jìn)而實現(xiàn)基礎(chǔ)能力的快速遷移。

3. 智元機器人 —— 智元啟元大模型GO-1

2025年3月,智元機器人正式發(fā)布基于ViLLA(Vision-Language-Latent-Action)架構(gòu)打造的通用具身基座大模型:智元啟元大模型 —— Genie Operator-1(簡稱GO-1 )。

Genie Operator-1模型架構(gòu)(圖片來源:智元機器人)

其中,ViLLA架構(gòu)由VLM(視覺-語言多模態(tài)大模型) + MoE(混合專家)組成。其中,MoE包含混合專家1 —— Latent Planner(隱式規(guī)劃器)和混合專家2 —— Action Expert(動作專家)兩部分組成。

1)VLM模型:采用InternVL-2B多模態(tài)大模型,接收多視角視覺圖片、力覺信號、自然語言等多模態(tài)信息的輸入,實現(xiàn)通用的場景感知和理解以及語言指令的理解。

該模型訓(xùn)練所使用的數(shù)據(jù)主要來自大規(guī)模的互聯(lián)網(wǎng)圖像和文本數(shù)據(jù)。

2)混合專家1 —— Latent Planner(隱式規(guī)劃器):模型架構(gòu)采用與VLM 主干網(wǎng)絡(luò)相同的Transformer 結(jié)構(gòu),但使用兩套獨立的FFN(前饋神經(jīng)網(wǎng)絡(luò))和Q/K/V/O(查詢、鍵、值、輸出)投影矩陣。

它的主要作用為基于VLM的中間層輸出預(yù)測Latent Action Tokens作為CoP(Chain of Planning,規(guī)劃鏈),以實現(xiàn)通用動作的理解和規(guī)劃。

該模型訓(xùn)練所使用的數(shù)據(jù):主要為大量人類操作和跨本體操作視頻,目的在于將異構(gòu)數(shù)據(jù)源中真實世界的動作知識遷移到通用操作任務(wù)中。

3)混合專家2 ——Action Expert(動作專家):在結(jié)構(gòu)設(shè)計上與Latent Planner類似,也是與VLM 主干網(wǎng)絡(luò)共享相同的 Transformer 結(jié)構(gòu)。

它的作用在于基于VLM的中間層輸出以及Latent Action Tokens,生成最終的精細(xì)動作序列。

該模型訓(xùn)練所使用的數(shù)據(jù)是高質(zhì)量的真機數(shù)據(jù)。

簡單來說:VLM模型負(fù)責(zé)“看懂”世界和任務(wù),Latent Planner在“腦海”中構(gòu)思出達(dá)成目標(biāo)的步驟(做什么),Action Expert則將這些步驟轉(zhuǎn)化為機器人身體能執(zhí)行的具體動作(怎么做)。三者形成“感知→規(guī)劃→執(zhí)行”的閉環(huán)。

4. 靈初智能 —— Psi-R1

2025年4月,靈初智能正式推出基于強化學(xué)習(xí)(RL)的端到端具身VLA模型Psi-R1。

Psi R1模型采取了“快慢腦”的分層架構(gòu),其中,快腦S1專注操作,慢腦S2專注推理,此架構(gòu)支持機器人在開放環(huán)境下實現(xiàn)自主推理決策和長程靈巧操作的能力。

上層規(guī)劃Planner(即慢腦S2系統(tǒng)):采用基于自回歸生成機制的Causal VLM架構(gòu),負(fù)責(zé)場景抽象理解、任務(wù)規(guī)劃決策。

下層控制Controller(即快腦S1系統(tǒng)):采用DiT 模塊,專注于高精度的控制執(zhí)行操作。

Psi-R1模型架構(gòu)(圖片來源:靈初智能)

Psi-R1模型通過 Action Tokenizer 將慢腦S2輸出的高層動作規(guī)劃離散化為可執(zhí)行指令,供快腦S1解析執(zhí)行,實現(xiàn)動作空間的統(tǒng)一表征。該機制協(xié)同視覺—語言模態(tài)編碼器,共同完成跨模態(tài)對齊與融合。

據(jù)了解,Psi-R1模型是構(gòu)建了首個支持「動作感知 - 環(huán)境反饋 - 動態(tài)決策」全閉環(huán)的VLA模型,實現(xiàn)機器人操作的視覺-語言-動作多模態(tài)協(xié)同的的CoAT思維鏈。再通過真機強化學(xué)習(xí)訓(xùn)練,搭載R1模型的機器人能夠在多數(shù)靈巧操作任務(wù)中展現(xiàn)出接近人類水平的目標(biāo)泛化能力與長程任務(wù)操作穩(wěn)定性。

應(yīng)用場景:麻將作為策略性博弈棋牌,兼具高度隨機性與交互性。在這一場景中,搭載R1 模型的機器人能夠完整進(jìn)行一局時長超 30 分鐘的國標(biāo)麻將:不僅能精準(zhǔn)完成翻牌、抓牌、理牌、出牌等操作,展現(xiàn)出接近人類的靈巧操作水平;還能理解麻將規(guī)則,動態(tài)制定出牌、碰杠等策略,實現(xiàn)從規(guī)則理解到實時博弈的全流程推理與執(zhí)行。

該機器人完成了時長30分鐘以上的CoAT長線思維鏈,打破了傳統(tǒng)機器人在復(fù)雜任務(wù)中面臨的時間與思考瓶頸。

參考資料:

1.RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

2.π0: A Vision-Language-Action Flow Model for General Robot Control

3.Figure AI 官網(wǎng) 

4.GR00T N1: An Open Foundation Model for Generalist Humanoid Robots

5.HiRT: Enhancing Robotic Control with Hierarchical Robot Transformers

6.GraspVLA: a Grasping Foundation Model Pre-trained on Billion-scale Synthetic Action Data

7.AgiBot World Colosseo: Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems

8. 靈初智能官網(wǎng)

       原文標(biāo)題 : VLA模型如何重塑具身智能 —— 8家國內(nèi)外典型具身智能VLA模型梳理與分析

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號