谷歌具身智能VLA模型RT-H—— 基于語(yǔ)言的動(dòng)作分層框架
2024年3月,谷歌DeepMind正式推出端到端的框架RT-H。它是一個(gè)帶動(dòng)作分層結(jié)構(gòu)的機(jī)器人Transformer —— 將語(yǔ)言化動(dòng)作作為高級(jí)任務(wù)描述與低級(jí)動(dòng)作之間的中間預(yù)測(cè)層,從而通過(guò)語(yǔ)言化動(dòng)作構(gòu)建動(dòng)作分層結(jié)構(gòu)。
那么,什么是語(yǔ)言化動(dòng)作(language Motion),構(gòu)建動(dòng)作分層結(jié)構(gòu)又能帶來(lái)哪些好處呢?
語(yǔ)言化動(dòng)作是以自然語(yǔ)言描述機(jī)器人行為的語(yǔ)義單元,它作為高層任務(wù)與底層機(jī)器人動(dòng)作(Robotics Actions)之間的中間抽象層,通過(guò)分解任務(wù)意圖生成可解釋的動(dòng)作序列,保留語(yǔ)言的可組合性與人類可干預(yù)性,但其本身不直接控制機(jī)器人的動(dòng)作執(zhí)行。
例如,將“拿起可樂(lè)罐”這一任務(wù)可分解為一系列更細(xì)顆粒度的行為,比如“向前移動(dòng)手臂”,然后 “抓住罐子”,接著 “向上移動(dòng)手臂”,這些細(xì)顆粒度的行為均可稱之為語(yǔ)言化動(dòng)作。
構(gòu)建動(dòng)作分層架構(gòu)的優(yōu)勢(shì):
(1) 在語(yǔ)言化動(dòng)作層面實(shí)現(xiàn)跨任務(wù)高效數(shù)據(jù)共享
通過(guò)語(yǔ)言化動(dòng)作的組合泛化能力,顯著提升多任務(wù)數(shù)據(jù)集利用率。例如,“傾倒杯中物體”與“拾取可樂(lè)罐”雖任務(wù)語(yǔ)義不同,但在物體被拾取前的語(yǔ)言化動(dòng)作序列完全一致(如“接近物體→定位抓取→閉合夾爪”),實(shí)現(xiàn)動(dòng)作層級(jí)的跨任務(wù)復(fù)用。
(2) 語(yǔ)言化動(dòng)作是動(dòng)態(tài)場(chǎng)景適配的智能基元
語(yǔ)言化動(dòng)作非固定預(yù)設(shè),而是基于當(dāng)前任務(wù)語(yǔ)境與視覺(jué)觀察實(shí)時(shí)生成。例如,“前移機(jī)械臂”的語(yǔ)義不包含具體速度與方向向量——該參數(shù)需根據(jù)任務(wù)目標(biāo)(如“避開易碎物”)和環(huán)境狀態(tài)(障礙物位置)動(dòng)態(tài)解析。
RT-H動(dòng)作分層架構(gòu)
在上圖中,當(dāng)給定“蓋上開心果罐” 這類語(yǔ)言描述的任務(wù)以及場(chǎng)景圖像后,RT-H 會(huì)利用視覺(jué)語(yǔ)言模型(VLM)預(yù)測(cè) “向前移動(dòng)手臂”、“向右旋轉(zhuǎn)手臂” 等語(yǔ)言化動(dòng)作;然后,再根據(jù)這些語(yǔ)言化動(dòng)作,為機(jī)器人預(yù)測(cè)具體執(zhí)行動(dòng)作(Robot Action)。
這種動(dòng)作分層結(jié)構(gòu)能讓模型學(xué)習(xí)到那些語(yǔ)言描述差異顯著但存在共享結(jié)構(gòu)的任務(wù)。與RT-2哪些直接從任務(wù)映射到動(dòng)作的方式相比,這些語(yǔ)言化動(dòng)作有助于在多樣化的多任務(wù)數(shù)據(jù)集之間實(shí)現(xiàn)更好的數(shù)據(jù)共享。
此外,該分層結(jié)構(gòu)還允許人類選擇性地向機(jī)器人提供語(yǔ)言化動(dòng)作修正,以避免任務(wù)失敗,隨后利用這些新的語(yǔ)言化動(dòng)作預(yù)測(cè)更優(yōu)的動(dòng)作。當(dāng)人類完成干預(yù)后,RT-H 會(huì)像之前一樣繼續(xù)預(yù)測(cè)語(yǔ)言化動(dòng)作。
然而,當(dāng)任務(wù)在語(yǔ)義上變得更加多樣時(shí)(例如“拿起可樂(lè)罐” 和 “倒杯子里的東西”),任務(wù)間的數(shù)據(jù)共享就會(huì)變得更加困難,因此學(xué)習(xí)從高級(jí)任務(wù)到具體動(dòng)作指令的映射需要大量的演示數(shù)據(jù)。
為了彌合任務(wù)與動(dòng)作之間的這一鴻溝,DeepMind的解法是賦予機(jī)器人『動(dòng)作語(yǔ)義化』能力——使用原子級(jí)動(dòng)作短語(yǔ)(如“前移機(jī)械臂”或“閉合夾爪”)描述底層運(yùn)動(dòng)。將語(yǔ)言化動(dòng)作預(yù)測(cè)作為高層任務(wù)與底層執(zhí)行間的中間步驟,倒逼策略模型學(xué)習(xí)表面異構(gòu)任務(wù)間共享的底層運(yùn)動(dòng)結(jié)構(gòu)。更重要的是,基于語(yǔ)言化動(dòng)作條件生成的策略,可在執(zhí)行過(guò)程中通過(guò)人類指定的語(yǔ)義指令實(shí)時(shí)修正。
一、RT-H:利用語(yǔ)言構(gòu)建動(dòng)作分層結(jié)構(gòu)
RT-H的推理流程包含兩個(gè)關(guān)鍵階段:
1)首先,RT-H 根據(jù)視覺(jué)觀察結(jié)果和高級(jí)任務(wù)描述,預(yù)測(cè)當(dāng)前的語(yǔ)言化動(dòng)作(語(yǔ)言化動(dòng)作指令請(qǐng)求),使模型能在細(xì)粒度層面推理任務(wù)執(zhí)行方式;
2)然后,RT-H聯(lián)合視覺(jué)觀察、任務(wù)描述及推斷出的語(yǔ)言化動(dòng)作預(yù)測(cè)當(dāng)前的具體執(zhí)行動(dòng)作(機(jī)器人動(dòng)作指令請(qǐng)求),其中語(yǔ)言化動(dòng)作為精確動(dòng)作預(yù)測(cè)提供了關(guān)鍵上下文補(bǔ)充。
RT-H是以視覺(jué)語(yǔ)言模型(VLM)作為主干網(wǎng)絡(luò),并遵循 RT-2的訓(xùn)練流程來(lái)實(shí)現(xiàn)。與RT-2 類似,通過(guò)互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)的訓(xùn)練,模型可調(diào)用自然語(yǔ)言處理與圖像理解領(lǐng)域的海量先驗(yàn)知識(shí)。
為了將這些先驗(yàn)知識(shí)融入動(dòng)作層級(jí)結(jié)構(gòu)的各個(gè)層級(jí),RT-H 使用單一的視覺(jué)語(yǔ)言模型(VLM)同時(shí)學(xué)習(xí)語(yǔ)言動(dòng)作指令請(qǐng)求(Language Motion Query)和機(jī)器人動(dòng)作指令請(qǐng)求(Action Query)。
RT-H的推理流程
圖左側(cè):
RT-H利用語(yǔ)言構(gòu)建分層策略學(xué)習(xí)架構(gòu):將動(dòng)作預(yù)測(cè)拆分為語(yǔ)言化動(dòng)作指令請(qǐng)求(π)與機(jī)器人動(dòng)作指令請(qǐng)求(π)。其中:
π:基于圖像令牌( Image Tokens)和任務(wù)描述令牌(Task Tokens)預(yù)測(cè)細(xì)粒度語(yǔ)言化動(dòng)作(如“向前移動(dòng)手臂”);
π:結(jié)合場(chǎng)景視覺(jué)上下文,將該語(yǔ)言化動(dòng)作解碼為具體的機(jī)器人動(dòng)作指令。
圖右側(cè):
用戶可直接對(duì)機(jī)器人動(dòng)作指令請(qǐng)求進(jìn)行干預(yù),為機(jī)器人行為提供語(yǔ)言化動(dòng)作修正,例如此處將“向前移動(dòng)手臂” 改為 “向左移動(dòng)手臂”。為了從修正中學(xué)習(xí),只需用新標(biāo)注的語(yǔ)言化動(dòng)作修正更新語(yǔ)言動(dòng)作指令請(qǐng)求。隨后,將更新后的模型重新部署到動(dòng)作層級(jí)結(jié)構(gòu)中。
RT-H通過(guò)端到端的方式學(xué)習(xí)預(yù)測(cè)語(yǔ)言化動(dòng)作指令和機(jī)器人動(dòng)作指令,不僅能夠在語(yǔ)言化動(dòng)作空間中進(jìn)行修正,還能從這些修正中高效學(xué)習(xí)。
當(dāng)所學(xué)策略難以順利執(zhí)行任務(wù)時(shí),語(yǔ)言化動(dòng)作能再次發(fā)揮作用:它們?yōu)樵诰人類修正提供了一個(gè)直觀的交互界面,且這種修正與特定場(chǎng)景相關(guān)聯(lián)。通過(guò)語(yǔ)言化動(dòng)作訓(xùn)練的策略,能夠自然地遵循人類的低級(jí)修正指令,并借助修正數(shù)據(jù)成功完成任務(wù)。此外,該策略甚至可以在語(yǔ)言修正數(shù)據(jù)上進(jìn)行訓(xùn)練,從而進(jìn)一步提升自身性能。
1. RT-H模型訓(xùn)練
RT-H采用基于互聯(lián)網(wǎng)多模態(tài)數(shù)據(jù)聯(lián)合預(yù)訓(xùn)練的單一視覺(jué)語(yǔ)言模型VLM),學(xué)習(xí)高層任務(wù)策略π與底層機(jī)器人控制策略π。
RT-H采用與RT-2相同的PaLI-X 55B架構(gòu)實(shí)例化視覺(jué)語(yǔ)言模型(VLM)。該模型通過(guò)ViT編碼器將圖像處理為圖像令牌(Image Tokens),再由編碼器-解碼器Transformer聯(lián)合處理這些圖像令牌與自然語(yǔ)言指令令牌,輸出離散動(dòng)作令牌(Action Tokens)。
這些動(dòng)作令牌的生成方式沿襲RT-2的離散化機(jī)制:將每個(gè)動(dòng)作維度離散化為256個(gè)區(qū)間(bins),并將區(qū)間編碼為整數(shù)值。每個(gè)動(dòng)作包含末端執(zhí)行器的位置/軸角旋轉(zhuǎn)變化量、夾爪開合動(dòng)作指令以及任務(wù)終止標(biāo)志。
隨后,RT-H 使用與 RT-2 相同的 PaLI-X 訓(xùn)練混合數(shù)據(jù)進(jìn)行聯(lián)合訓(xùn)練,并從預(yù)訓(xùn)練檢查點(diǎn)開始。在該聯(lián)合訓(xùn)練過(guò)程中,視覺(jué) Transformer(ViT)編碼器被凍結(jié)。RT-H 以相同的采樣率,用語(yǔ)言化動(dòng)作指令請(qǐng)求和機(jī)器人動(dòng)作指令請(qǐng)求替代了 RT-2 中的機(jī)器人動(dòng)作指令請(qǐng)求。使用單一模型簡(jiǎn)化了訓(xùn)練過(guò)程,并使語(yǔ)言化動(dòng)作指令請(qǐng)求和機(jī)器人動(dòng)作指令請(qǐng)求都能從 PaLI-X 訓(xùn)練混合數(shù)據(jù)中蘊(yùn)含的廣泛先驗(yàn)知識(shí)中獲益。
2. 語(yǔ)言化動(dòng)作的提取
為了低成本地提取每個(gè)片段中的每個(gè)時(shí)間步的可靠語(yǔ)言化動(dòng)作,DeepMind開發(fā)了一種依賴機(jī)器人本體感知信息的自動(dòng)標(biāo)注方案。
首先,將機(jī)器人末端執(zhí)行器位姿變化的每個(gè)維度與空間維度相關(guān)聯(lián)(例如,位置變化的z軸對(duì)應(yīng)上下方向)。針對(duì)所有 9 個(gè)動(dòng)作維度(3 個(gè)位置增量維度、3 個(gè)姿態(tài)增量維度、2 個(gè)基座移動(dòng)維度、1 個(gè)夾爪維度)執(zhí)行此操作后,就能確定機(jī)器人當(dāng)前的主要空間運(yùn)動(dòng)列表,例如 “手臂向上并向右移動(dòng)”“閉合夾爪”“手臂逆時(shí)針旋轉(zhuǎn)” 或 “基座向左轉(zhuǎn)動(dòng)”。之后,可以過(guò)濾掉低于選定 “小動(dòng)作” 閾值的維度,再按照動(dòng)作幅度的順序組合得到的動(dòng)作。
例如,如果機(jī)器人主要是向前移動(dòng)手臂,同時(shí)開始閉合夾爪,研究人員會(huì)提取出“向前移動(dòng)手臂并閉合夾爪” 這一語(yǔ)言化動(dòng)作。通過(guò)這種方式,語(yǔ)言的組合性使得從一組簡(jiǎn)單的已知?jiǎng)幼髦心軌蛱崛〕龀^(guò) 2500 種語(yǔ)言化動(dòng)作。
此外,由于這些語(yǔ)言化動(dòng)作直接源于動(dòng)作本身,因此在RT-H 中運(yùn)行動(dòng)作指令請(qǐng)求時(shí),它們對(duì)動(dòng)作本身具有很強(qiáng)的預(yù)測(cè)能力。
然而,語(yǔ)言化動(dòng)作在抽象層級(jí)的選擇上存在基本權(quán)衡的問(wèn)題:語(yǔ)言化動(dòng)作的顆粒度越細(xì),語(yǔ)言化動(dòng)作指令請(qǐng)求的預(yù)測(cè)難度越高,但對(duì)機(jī)器人動(dòng)作指令請(qǐng)求的指導(dǎo)性越強(qiáng);反之亦然。
二、RT-H:推理與修正
在測(cè)試階段,RT-H首先運(yùn)行語(yǔ)言化動(dòng)作指令請(qǐng)求(π)以推導(dǎo)語(yǔ)言化動(dòng)作序列,隨后將該序列輸入機(jī)器人動(dòng)作指令請(qǐng)求(π)生成具體的執(zhí)行動(dòng)作參數(shù)。
然而,由于兩個(gè)指令請(qǐng)求需在每一步時(shí)序中串行執(zhí)行,該過(guò)程使推理耗時(shí)翻倍。雖對(duì)小規(guī)模模型影響甚微,但對(duì)于RT-H中使用的55B參數(shù)的大型模型而言,必將引發(fā)不可避免的請(qǐng)求處理延遲問(wèn)題。
為應(yīng)對(duì)這一挑戰(zhàn),谷歌DeepMind提出兩種語(yǔ)言化動(dòng)作推理模式:
(1) 異步查詢:僅訓(xùn)練RT-H中的語(yǔ)言化動(dòng)作指令請(qǐng)求(π)預(yù)測(cè)未來(lái)一步動(dòng)作。測(cè)試時(shí),利用上一時(shí)間步推導(dǎo)的語(yǔ)言化動(dòng)作執(zhí)行當(dāng)前機(jī)器人動(dòng)作指令請(qǐng)求,同時(shí)并行預(yù)測(cè)下一時(shí)間步的語(yǔ)言化動(dòng)作。此方案通過(guò)批處理查詢實(shí)現(xiàn)與RT-2近乎同等的請(qǐng)求延遲。
(2) 固定頻率:每H步執(zhí)行一次語(yǔ)言化動(dòng)作指令請(qǐng)求,分?jǐn)傃舆t壓力。
在實(shí)驗(yàn)中,DeepMind選擇異步查詢方案,因語(yǔ)言化動(dòng)作常需在精確時(shí)間步變更,無(wú)法適配固定頻率帶來(lái)的約束。
結(jié)語(yǔ)
RT-H 通過(guò)訓(xùn)練將語(yǔ)言描述的任務(wù)映射為語(yǔ)言化動(dòng)作,然后利用推斷出的語(yǔ)言化動(dòng)作來(lái)預(yù)測(cè)具體動(dòng)作指令。它的優(yōu)勢(shì)在于:
(1) 學(xué)習(xí)不同任務(wù)間的共享結(jié)構(gòu),促進(jìn)多任務(wù)數(shù)據(jù)集的高效整合。
通過(guò)捕捉表面異構(gòu)任務(wù)間的任務(wù)結(jié)構(gòu)共性(如"倒水"與"取罐"共享抓取動(dòng)作),顯著提升跨任務(wù)數(shù)據(jù)復(fù)用能力,實(shí)現(xiàn)對(duì)大規(guī)模多任務(wù)數(shù)據(jù)集的高效吸收;
(2) 支持場(chǎng)景與任務(wù)上下文適配的語(yǔ)言化動(dòng)作修正。
允許人類通過(guò)語(yǔ)義指令(如"向左移動(dòng)5cm")在維持任務(wù)目標(biāo)的前提下,實(shí)時(shí)調(diào)整底層執(zhí)行策略,實(shí)現(xiàn)行為動(dòng)態(tài)優(yōu)化。
實(shí)驗(yàn)證明,RT-H模型通過(guò)利用這種語(yǔ)言-動(dòng)作分層結(jié)構(gòu),能夠高效利用多任務(wù)數(shù)據(jù)集,從而學(xué)習(xí)到魯棒性和適應(yīng)性更強(qiáng)的策略。研究還發(fā)現(xiàn),該策略不僅能響應(yīng)語(yǔ)言指令干預(yù),更能從這類干預(yù)中持續(xù)學(xué)習(xí),其表現(xiàn)顯著優(yōu)于基于遙操作示教干預(yù)的學(xué)習(xí)方法。
參考資料:
論文題目 :RT-H: Action Hierarchies Using Language
論文地址:https://arxiv.org/pdf/2403.01823
原文標(biāo)題 : 谷歌具身智能VLA模型RT-H—— 基于語(yǔ)言的動(dòng)作分層框架

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會(huì)2025(第六屆)機(jī)器人及智能工廠展
-
7月31日免費(fèi)預(yù)約>> OFweek 2025 具身機(jī)器人動(dòng)力電池技術(shù)應(yīng)用大會(huì)
-
免費(fèi)參會(huì)立即報(bào)名>> 7月30日- 8月1日 2025全數(shù)會(huì)工業(yè)芯片與傳感儀表展
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書》
-
8月5日立即報(bào)名>> 【在線會(huì)議】CAE優(yōu)化設(shè)計(jì):醫(yī)療器械設(shè)計(jì)的應(yīng)用案例與方案解析
-
8月14日立即報(bào)名>> 【在線研討會(huì)】解析安森美(onsemi)高精度與超低功耗CGM系統(tǒng)解決方案
推薦專題
- 1 AI產(chǎn)業(yè)的新高度!英偉達(dá)成為全球首家市值破4萬(wàn)億美元的公司
- 2 傳魏建軍與賈躍亭合作,長(zhǎng)城汽車出海美國(guó)
- 3 一文讀懂:到底什么是 “具身智能” ?
- 4 黃仁勛:與雷軍長(zhǎng)期合作,共探AI智駕
- 5 具身智能泡沫爭(zhēng)議下,華映資本尋找「穿越周期者」
- 6 中國(guó)平安們欲靠AI守“陣地”
- 7 官宣:智元機(jī)器人借殼上市,A股人形機(jī)器人第一股!
- 8 華為讓渡“三界”銷售主導(dǎo)權(quán),智界高管:終于能全力奔跑了
- 9 借仿生手實(shí)現(xiàn)突圍,國(guó)產(chǎn)靈巧手破局“不可能三角”
- 10 DeepSeek R2加持,中國(guó)AI與芯片產(chǎn)業(yè)迎來(lái)新一輪協(xié)同進(jìn)化