久久久一本精品99久久老熟女,国产成人精品影院狼色在线

谷歌具身智能VLA模型RT-H—— 基于語(yǔ)言的動(dòng)作分層框架

2025-07-10 17:52

2024年3月，谷歌DeepMind正式推出端到端的框架RT-H。它是一個(gè)帶動(dòng)作分層結(jié)構(gòu)的機(jī)器人Transformer —— 將語(yǔ)言化動(dòng)作作為高級(jí)任務(wù)描述與低級(jí)動(dòng)作之間的中間預(yù)測(cè)層，從而通過(guò)語(yǔ)言化動(dòng)作構(gòu)建動(dòng)作分層結(jié)構(gòu)。

那么，什么是語(yǔ)言化動(dòng)作（language Motion），構(gòu)建動(dòng)作分層結(jié)構(gòu)又能帶來(lái)哪些好處呢？

語(yǔ)言化動(dòng)作是以自然語(yǔ)言描述機(jī)器人行為的語(yǔ)義單元，它作為高層任務(wù)與底層機(jī)器人動(dòng)作（Robotics Actions）之間的中間抽象層，通過(guò)分解任務(wù)意圖生成可解釋的動(dòng)作序列，保留語(yǔ)言的可組合性與人類可干預(yù)性，但其本身不直接控制機(jī)器人的動(dòng)作執(zhí)行。

例如，將“拿起可樂(lè)罐”這一任務(wù)可分解為一系列更細(xì)顆粒度的行為，比如“向前移動(dòng)手臂”，然后 “抓住罐子”，接著 “向上移動(dòng)手臂”，這些細(xì)顆粒度的行為均可稱之為語(yǔ)言化動(dòng)作。

構(gòu)建動(dòng)作分層架構(gòu)的優(yōu)勢(shì)：

(1) 在語(yǔ)言化動(dòng)作層面實(shí)現(xiàn)跨任務(wù)高效數(shù)據(jù)共享

通過(guò)語(yǔ)言化動(dòng)作的組合泛化能力，顯著提升多任務(wù)數(shù)據(jù)集利用率。例如，“傾倒杯中物體”與“拾取可樂(lè)罐”雖任務(wù)語(yǔ)義不同，但在物體被拾取前的語(yǔ)言化動(dòng)作序列完全一致（如“接近物體→定位抓取→閉合夾爪”），實(shí)現(xiàn)動(dòng)作層級(jí)的跨任務(wù)復(fù)用。

(2) 語(yǔ)言化動(dòng)作是動(dòng)態(tài)場(chǎng)景適配的智能基元

語(yǔ)言化動(dòng)作非固定預(yù)設(shè)，而是基于當(dāng)前任務(wù)語(yǔ)境與視覺(jué)觀察實(shí)時(shí)生成。例如，“前移機(jī)械臂”的語(yǔ)義不包含具體速度與方向向量——該參數(shù)需根據(jù)任務(wù)目標(biāo)（如“避開易碎物”）和環(huán)境狀態(tài)（障礙物位置）動(dòng)態(tài)解析。

RT-H動(dòng)作分層架構(gòu)

在上圖中，當(dāng)給定“蓋上開心果罐” 這類語(yǔ)言描述的任務(wù)以及場(chǎng)景圖像后，RT-H 會(huì)利用視覺(jué)語(yǔ)言模型（VLM）預(yù)測(cè) “向前移動(dòng)手臂”、“向右旋轉(zhuǎn)手臂” 等語(yǔ)言化動(dòng)作；然后，再根據(jù)這些語(yǔ)言化動(dòng)作，為機(jī)器人預(yù)測(cè)具體執(zhí)行動(dòng)作（Robot Action）。

這種動(dòng)作分層結(jié)構(gòu)能讓模型學(xué)習(xí)到那些語(yǔ)言描述差異顯著但存在共享結(jié)構(gòu)的任務(wù)。與RT-2哪些直接從任務(wù)映射到動(dòng)作的方式相比，這些語(yǔ)言化動(dòng)作有助于在多樣化的多任務(wù)數(shù)據(jù)集之間實(shí)現(xiàn)更好的數(shù)據(jù)共享。

此外，該分層結(jié)構(gòu)還允許人類選擇性地向機(jī)器人提供語(yǔ)言化動(dòng)作修正，以避免任務(wù)失敗，隨后利用這些新的語(yǔ)言化動(dòng)作預(yù)測(cè)更優(yōu)的動(dòng)作。當(dāng)人類完成干預(yù)后，RT-H 會(huì)像之前一樣繼續(xù)預(yù)測(cè)語(yǔ)言化動(dòng)作。

然而，當(dāng)任務(wù)在語(yǔ)義上變得更加多樣時(shí)（例如“拿起可樂(lè)罐” 和 “倒杯子里的東西”），任務(wù)間的數(shù)據(jù)共享就會(huì)變得更加困難，因此學(xué)習(xí)從高級(jí)任務(wù)到具體動(dòng)作指令的映射需要大量的演示數(shù)據(jù)。

為了彌合任務(wù)與動(dòng)作之間的這一鴻溝，DeepMind的解法是賦予機(jī)器人『動(dòng)作語(yǔ)義化』能力——使用原子級(jí)動(dòng)作短語(yǔ)（如“前移機(jī)械臂”或“閉合夾爪”）描述底層運(yùn)動(dòng)。將語(yǔ)言化動(dòng)作預(yù)測(cè)作為高層任務(wù)與底層執(zhí)行間的中間步驟，倒逼策略模型學(xué)習(xí)表面異構(gòu)任務(wù)間共享的底層運(yùn)動(dòng)結(jié)構(gòu)。更重要的是，基于語(yǔ)言化動(dòng)作條件生成的策略，可在執(zhí)行過(guò)程中通過(guò)人類指定的語(yǔ)義指令實(shí)時(shí)修正。

一、RT-H：利用語(yǔ)言構(gòu)建動(dòng)作分層結(jié)構(gòu)

RT-H的推理流程包含兩個(gè)關(guān)鍵階段：

1）首先，RT-H 根據(jù)視覺(jué)觀察結(jié)果和高級(jí)任務(wù)描述，預(yù)測(cè)當(dāng)前的語(yǔ)言化動(dòng)作（語(yǔ)言化動(dòng)作指令請(qǐng)求），使模型能在細(xì)粒度層面推理任務(wù)執(zhí)行方式；

2）然后，RT-H聯(lián)合視覺(jué)觀察、任務(wù)描述及推斷出的語(yǔ)言化動(dòng)作預(yù)測(cè)當(dāng)前的具體執(zhí)行動(dòng)作（機(jī)器人動(dòng)作指令請(qǐng)求），其中語(yǔ)言化動(dòng)作為精確動(dòng)作預(yù)測(cè)提供了關(guān)鍵上下文補(bǔ)充。

RT-H是以視覺(jué)語(yǔ)言模型（VLM）作為主干網(wǎng)絡(luò)，并遵循 RT-2的訓(xùn)練流程來(lái)實(shí)現(xiàn)。與RT-2 類似，通過(guò)互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)的訓(xùn)練，模型可調(diào)用自然語(yǔ)言處理與圖像理解領(lǐng)域的海量先驗(yàn)知識(shí)。

為了將這些先驗(yàn)知識(shí)融入動(dòng)作層級(jí)結(jié)構(gòu)的各個(gè)層級(jí)，RT-H 使用單一的視覺(jué)語(yǔ)言模型（VLM）同時(shí)學(xué)習(xí)語(yǔ)言動(dòng)作指令請(qǐng)求（Language Motion Query）和機(jī)器人動(dòng)作指令請(qǐng)求(Action Query)。

RT-H的推理流程

圖左側(cè)：

RT-H利用語(yǔ)言構(gòu)建分層策略學(xué)習(xí)架構(gòu)：將動(dòng)作預(yù)測(cè)拆分為語(yǔ)言化動(dòng)作指令請(qǐng)求（π）與機(jī)器人動(dòng)作指令請(qǐng)求（π）。其中：

π：基于圖像令牌（ Image Tokens）和任務(wù)描述令牌（Task Tokens）預(yù)測(cè)細(xì)粒度語(yǔ)言化動(dòng)作（如“向前移動(dòng)手臂”）；

π：結(jié)合場(chǎng)景視覺(jué)上下文，將該語(yǔ)言化動(dòng)作解碼為具體的機(jī)器人動(dòng)作指令。

圖右側(cè)：

用戶可直接對(duì)機(jī)器人動(dòng)作指令請(qǐng)求進(jìn)行干預(yù)，為機(jī)器人行為提供語(yǔ)言化動(dòng)作修正，例如此處將“向前移動(dòng)手臂” 改為 “向左移動(dòng)手臂”。為了從修正中學(xué)習(xí)，只需用新標(biāo)注的語(yǔ)言化動(dòng)作修正更新語(yǔ)言動(dòng)作指令請(qǐng)求。隨后，將更新后的模型重新部署到動(dòng)作層級(jí)結(jié)構(gòu)中。

RT-H通過(guò)端到端的方式學(xué)習(xí)預(yù)測(cè)語(yǔ)言化動(dòng)作指令和機(jī)器人動(dòng)作指令，不僅能夠在語(yǔ)言化動(dòng)作空間中進(jìn)行修正，還能從這些修正中高效學(xué)習(xí)。

當(dāng)所學(xué)策略難以順利執(zhí)行任務(wù)時(shí)，語(yǔ)言化動(dòng)作能再次發(fā)揮作用：它們?yōu)樵诰€人類修正提供了一個(gè)直觀的交互界面，且這種修正與特定場(chǎng)景相關(guān)聯(lián)。通過(guò)語(yǔ)言化動(dòng)作訓(xùn)練的策略，能夠自然地遵循人類的低級(jí)修正指令，并借助修正數(shù)據(jù)成功完成任務(wù)。此外，該策略甚至可以在語(yǔ)言修正數(shù)據(jù)上進(jìn)行訓(xùn)練，從而進(jìn)一步提升自身性能。

1. RT-H模型訓(xùn)練

RT-H采用基于互聯(lián)網(wǎng)多模態(tài)數(shù)據(jù)聯(lián)合預(yù)訓(xùn)練的單一視覺(jué)語(yǔ)言模型VLM），學(xué)習(xí)高層任務(wù)策略π與底層機(jī)器人控制策略π。

RT-H采用與RT-2相同的PaLI-X 55B架構(gòu)實(shí)例化視覺(jué)語(yǔ)言模型（VLM）。該模型通過(guò)ViT編碼器將圖像處理為圖像令牌（Image Tokens），再由編碼器-解碼器Transformer聯(lián)合處理這些圖像令牌與自然語(yǔ)言指令令牌，輸出離散動(dòng)作令牌（Action Tokens）。

這些動(dòng)作令牌的生成方式沿襲RT-2的離散化機(jī)制：將每個(gè)動(dòng)作維度離散化為256個(gè)區(qū)間（bins），并將區(qū)間編碼為整數(shù)值。每個(gè)動(dòng)作包含末端執(zhí)行器的位置/軸角旋轉(zhuǎn)變化量、夾爪開合動(dòng)作指令以及任務(wù)終止標(biāo)志。

隨后，RT-H 使用與 RT-2 相同的 PaLI-X 訓(xùn)練混合數(shù)據(jù)進(jìn)行聯(lián)合訓(xùn)練，并從預(yù)訓(xùn)練檢查點(diǎn)開始。在該聯(lián)合訓(xùn)練過(guò)程中，視覺(jué) Transformer（ViT）編碼器被凍結(jié)。RT-H 以相同的采樣率，用語(yǔ)言化動(dòng)作指令請(qǐng)求和機(jī)器人動(dòng)作指令請(qǐng)求替代了 RT-2 中的機(jī)器人動(dòng)作指令請(qǐng)求。使用單一模型簡(jiǎn)化了訓(xùn)練過(guò)程，并使語(yǔ)言化動(dòng)作指令請(qǐng)求和機(jī)器人動(dòng)作指令請(qǐng)求都能從 PaLI-X 訓(xùn)練混合數(shù)據(jù)中蘊(yùn)含的廣泛先驗(yàn)知識(shí)中獲益。

2. 語(yǔ)言化動(dòng)作的提取

為了低成本地提取每個(gè)片段中的每個(gè)時(shí)間步的可靠語(yǔ)言化動(dòng)作，DeepMind開發(fā)了一種依賴機(jī)器人本體感知信息的自動(dòng)標(biāo)注方案。

首先，將機(jī)器人末端執(zhí)行器位姿變化的每個(gè)維度與空間維度相關(guān)聯(lián)（例如，位置變化的z軸對(duì)應(yīng)上下方向）。針對(duì)所有 9 個(gè)動(dòng)作維度（3 個(gè)位置增量維度、3 個(gè)姿態(tài)增量維度、2 個(gè)基座移動(dòng)維度、1 個(gè)夾爪維度）執(zhí)行此操作后，就能確定機(jī)器人當(dāng)前的主要空間運(yùn)動(dòng)列表，例如 “手臂向上并向右移動(dòng)”“閉合夾爪”“手臂逆時(shí)針旋轉(zhuǎn)” 或 “基座向左轉(zhuǎn)動(dòng)”。之后，可以過(guò)濾掉低于選定 “小動(dòng)作” 閾值的維度，再按照動(dòng)作幅度的順序組合得到的動(dòng)作。

例如，如果機(jī)器人主要是向前移動(dòng)手臂，同時(shí)開始閉合夾爪，研究人員會(huì)提取出“向前移動(dòng)手臂并閉合夾爪” 這一語(yǔ)言化動(dòng)作。通過(guò)這種方式，語(yǔ)言的組合性使得從一組簡(jiǎn)單的已知?jiǎng)幼髦心軌蛱崛〕龀^(guò) 2500 種語(yǔ)言化動(dòng)作。

此外，由于這些語(yǔ)言化動(dòng)作直接源于動(dòng)作本身，因此在RT-H 中運(yùn)行動(dòng)作指令請(qǐng)求時(shí)，它們對(duì)動(dòng)作本身具有很強(qiáng)的預(yù)測(cè)能力。

然而，語(yǔ)言化動(dòng)作在抽象層級(jí)的選擇上存在基本權(quán)衡的問(wèn)題：語(yǔ)言化動(dòng)作的顆粒度越細(xì)，語(yǔ)言化動(dòng)作指令請(qǐng)求的預(yù)測(cè)難度越高，但對(duì)機(jī)器人動(dòng)作指令請(qǐng)求的指導(dǎo)性越強(qiáng)；反之亦然。

二、RT-H：推理與修正

在測(cè)試階段，RT-H首先運(yùn)行語(yǔ)言化動(dòng)作指令請(qǐng)求（π）以推導(dǎo)語(yǔ)言化動(dòng)作序列，隨后將該序列輸入機(jī)器人動(dòng)作指令請(qǐng)求（π）生成具體的執(zhí)行動(dòng)作參數(shù)。

然而，由于兩個(gè)指令請(qǐng)求需在每一步時(shí)序中串行執(zhí)行，該過(guò)程使推理耗時(shí)翻倍。雖對(duì)小規(guī)模模型影響甚微，但對(duì)于RT-H中使用的55B參數(shù)的大型模型而言，必將引發(fā)不可避免的請(qǐng)求處理延遲問(wèn)題。

為應(yīng)對(duì)這一挑戰(zhàn)，谷歌DeepMind提出兩種語(yǔ)言化動(dòng)作推理模式：

(1) 異步查詢：僅訓(xùn)練RT-H中的語(yǔ)言化動(dòng)作指令請(qǐng)求（π）預(yù)測(cè)未來(lái)一步動(dòng)作。測(cè)試時(shí)，利用上一時(shí)間步推導(dǎo)的語(yǔ)言化動(dòng)作執(zhí)行當(dāng)前機(jī)器人動(dòng)作指令請(qǐng)求，同時(shí)并行預(yù)測(cè)下一時(shí)間步的語(yǔ)言化動(dòng)作。此方案通過(guò)批處理查詢實(shí)現(xiàn)與RT-2近乎同等的請(qǐng)求延遲。

(2) 固定頻率：每H步執(zhí)行一次語(yǔ)言化動(dòng)作指令請(qǐng)求，分?jǐn)傃舆t壓力。

在實(shí)驗(yàn)中，DeepMind選擇異步查詢方案，因語(yǔ)言化動(dòng)作常需在精確時(shí)間步變更，無(wú)法適配固定頻率帶來(lái)的約束。

結(jié)語(yǔ)

RT-H 通過(guò)訓(xùn)練將語(yǔ)言描述的任務(wù)映射為語(yǔ)言化動(dòng)作，然后利用推斷出的語(yǔ)言化動(dòng)作來(lái)預(yù)測(cè)具體動(dòng)作指令。它的優(yōu)勢(shì)在于：

(1) 學(xué)習(xí)不同任務(wù)間的共享結(jié)構(gòu)，促進(jìn)多任務(wù)數(shù)據(jù)集的高效整合。

通過(guò)捕捉表面異構(gòu)任務(wù)間的任務(wù)結(jié)構(gòu)共性（如"倒水"與"取罐"共享抓取動(dòng)作），顯著提升跨任務(wù)數(shù)據(jù)復(fù)用能力，實(shí)現(xiàn)對(duì)大規(guī)模多任務(wù)數(shù)據(jù)集的高效吸收；

(2) 支持場(chǎng)景與任務(wù)上下文適配的語(yǔ)言化動(dòng)作修正。

允許人類通過(guò)語(yǔ)義指令（如"向左移動(dòng)5cm"）在維持任務(wù)目標(biāo)的前提下，實(shí)時(shí)調(diào)整底層執(zhí)行策略，實(shí)現(xiàn)行為動(dòng)態(tài)優(yōu)化。

實(shí)驗(yàn)證明，RT-H模型通過(guò)利用這種語(yǔ)言-動(dòng)作分層結(jié)構(gòu)，能夠高效利用多任務(wù)數(shù)據(jù)集，從而學(xué)習(xí)到魯棒性和適應(yīng)性更強(qiáng)的策略。研究還發(fā)現(xiàn)，該策略不僅能響應(yīng)語(yǔ)言指令干預(yù)，更能從這類干預(yù)中持續(xù)學(xué)習(xí)，其表現(xiàn)顯著優(yōu)于基于遙操作示教干預(yù)的學(xué)習(xí)方法。

參考資料：

論文題目：RT-H: Action Hierarchies Using Language

論文地址：https://arxiv.org/pdf/2403.01823

原文標(biāo)題 : 谷歌具身智能VLA模型RT-H—— 基于語(yǔ)言的動(dòng)作分層框架