訂閱
糾錯(cuò)
加入自媒體

谷歌具身智能VLA模型RT-H—— 基于語(yǔ)言的動(dòng)作分層框架

2024年3月,谷歌DeepMind正式推出端到端的框架RT-H。它是一個(gè)帶動(dòng)作分層結(jié)構(gòu)的機(jī)器人Transformer —— 將語(yǔ)言化動(dòng)作作為高級(jí)任務(wù)描述與低級(jí)動(dòng)作之間的中間預(yù)測(cè)層,從而通過(guò)語(yǔ)言化動(dòng)作構(gòu)建動(dòng)作分層結(jié)構(gòu)。

那么,什么是語(yǔ)言化動(dòng)作(language Motion),構(gòu)建動(dòng)作分層結(jié)構(gòu)又能帶來(lái)哪些好處呢?

語(yǔ)言化動(dòng)作是以自然語(yǔ)言描述機(jī)器人行為的語(yǔ)義單元,它作為高層任務(wù)與底層機(jī)器人動(dòng)作(Robotics Actions)之間的中間抽象層,通過(guò)分解任務(wù)意圖生成可解釋的動(dòng)作序列,保留語(yǔ)言的可組合性與人類可干預(yù)性,但其本身不直接控制機(jī)器人的動(dòng)作執(zhí)行。

例如,將“拿起可樂(lè)罐”這一任務(wù)可分解為一系列更細(xì)顆粒度的行為,比如“向前移動(dòng)手臂”,然后 “抓住罐子”,接著 “向上移動(dòng)手臂”,這些細(xì)顆粒度的行為均可稱之為語(yǔ)言化動(dòng)作。

構(gòu)建動(dòng)作分層架構(gòu)的優(yōu)勢(shì):

(1) 在語(yǔ)言化動(dòng)作層面實(shí)現(xiàn)跨任務(wù)高效數(shù)據(jù)共享

通過(guò)語(yǔ)言化動(dòng)作的組合泛化能力,顯著提升多任務(wù)數(shù)據(jù)集利用率。例如,“傾倒杯中物體”與“拾取可樂(lè)罐”雖任務(wù)語(yǔ)義不同,但在物體被拾取前的語(yǔ)言化動(dòng)作序列完全一致(如“接近物體→定位抓取→閉合夾爪”),實(shí)現(xiàn)動(dòng)作層級(jí)的跨任務(wù)復(fù)用。

(2) 語(yǔ)言化動(dòng)作是動(dòng)態(tài)場(chǎng)景適配的智能基元

語(yǔ)言化動(dòng)作非固定預(yù)設(shè),而是基于當(dāng)前任務(wù)語(yǔ)境與視覺(jué)觀察實(shí)時(shí)生成。例如,“前移機(jī)械臂”的語(yǔ)義不包含具體速度與方向向量——該參數(shù)需根據(jù)任務(wù)目標(biāo)(如“避開易碎物”)和環(huán)境狀態(tài)(障礙物位置)動(dòng)態(tài)解析。

RT-H動(dòng)作分層架構(gòu)

在上圖中,當(dāng)給定“蓋上開心果罐” 這類語(yǔ)言描述的任務(wù)以及場(chǎng)景圖像后,RT-H 會(huì)利用視覺(jué)語(yǔ)言模型(VLM)預(yù)測(cè) “向前移動(dòng)手臂”、“向右旋轉(zhuǎn)手臂” 等語(yǔ)言化動(dòng)作;然后,再根據(jù)這些語(yǔ)言化動(dòng)作,為機(jī)器人預(yù)測(cè)具體執(zhí)行動(dòng)作(Robot Action)。

這種動(dòng)作分層結(jié)構(gòu)能讓模型學(xué)習(xí)到那些語(yǔ)言描述差異顯著但存在共享結(jié)構(gòu)的任務(wù)。與RT-2哪些直接從任務(wù)映射到動(dòng)作的方式相比,這些語(yǔ)言化動(dòng)作有助于在多樣化的多任務(wù)數(shù)據(jù)集之間實(shí)現(xiàn)更好的數(shù)據(jù)共享。

此外,該分層結(jié)構(gòu)還允許人類選擇性地向機(jī)器人提供語(yǔ)言化動(dòng)作修正,以避免任務(wù)失敗,隨后利用這些新的語(yǔ)言化動(dòng)作預(yù)測(cè)更優(yōu)的動(dòng)作。當(dāng)人類完成干預(yù)后,RT-H 會(huì)像之前一樣繼續(xù)預(yù)測(cè)語(yǔ)言化動(dòng)作。

然而,當(dāng)任務(wù)在語(yǔ)義上變得更加多樣時(shí)(例如“拿起可樂(lè)罐” 和 “倒杯子里的東西”),任務(wù)間的數(shù)據(jù)共享就會(huì)變得更加困難,因此學(xué)習(xí)從高級(jí)任務(wù)到具體動(dòng)作指令的映射需要大量的演示數(shù)據(jù)。

為了彌合任務(wù)與動(dòng)作之間的這一鴻溝,DeepMind的解法是賦予機(jī)器人『動(dòng)作語(yǔ)義化』能力——使用原子級(jí)動(dòng)作短語(yǔ)(如“前移機(jī)械臂”或“閉合夾爪”)描述底層運(yùn)動(dòng)。將語(yǔ)言化動(dòng)作預(yù)測(cè)作為高層任務(wù)與底層執(zhí)行間的中間步驟,倒逼策略模型學(xué)習(xí)表面異構(gòu)任務(wù)間共享的底層運(yùn)動(dòng)結(jié)構(gòu)。更重要的是,基于語(yǔ)言化動(dòng)作條件生成的策略,可在執(zhí)行過(guò)程中通過(guò)人類指定的語(yǔ)義指令實(shí)時(shí)修正。

一、RT-H:利用語(yǔ)言構(gòu)建動(dòng)作分層結(jié)構(gòu)

RT-H的推理流程包含兩個(gè)關(guān)鍵階段:

1)首先,RT-H 根據(jù)視覺(jué)觀察結(jié)果和高級(jí)任務(wù)描述,預(yù)測(cè)當(dāng)前的語(yǔ)言化動(dòng)作(語(yǔ)言化動(dòng)作指令請(qǐng)求),使模型能在細(xì)粒度層面推理任務(wù)執(zhí)行方式;

2)然后,RT-H聯(lián)合視覺(jué)觀察、任務(wù)描述及推斷出的語(yǔ)言化動(dòng)作預(yù)測(cè)當(dāng)前的具體執(zhí)行動(dòng)作(機(jī)器人動(dòng)作指令請(qǐng)求),其中語(yǔ)言化動(dòng)作為精確動(dòng)作預(yù)測(cè)提供了關(guān)鍵上下文補(bǔ)充。

RT-H是以視覺(jué)語(yǔ)言模型(VLM)作為主干網(wǎng)絡(luò),并遵循 RT-2的訓(xùn)練流程來(lái)實(shí)現(xiàn)。與RT-2 類似,通過(guò)互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)的訓(xùn)練,模型可調(diào)用自然語(yǔ)言處理與圖像理解領(lǐng)域的海量先驗(yàn)知識(shí)。

為了將這些先驗(yàn)知識(shí)融入動(dòng)作層級(jí)結(jié)構(gòu)的各個(gè)層級(jí),RT-H 使用單一的視覺(jué)語(yǔ)言模型(VLM)同時(shí)學(xué)習(xí)語(yǔ)言動(dòng)作指令請(qǐng)求(Language Motion Query)和機(jī)器人動(dòng)作指令請(qǐng)求(Action Query)。

RT-H的推理流程

圖左側(cè):

RT-H利用語(yǔ)言構(gòu)建分層策略學(xué)習(xí)架構(gòu):將動(dòng)作預(yù)測(cè)拆分為語(yǔ)言化動(dòng)作指令請(qǐng)求(π)與機(jī)器人動(dòng)作指令請(qǐng)求(π)。其中:

π:基于圖像令牌( Image Tokens)和任務(wù)描述令牌(Task Tokens)預(yù)測(cè)細(xì)粒度語(yǔ)言化動(dòng)作(如“向前移動(dòng)手臂”);

π:結(jié)合場(chǎng)景視覺(jué)上下文,將該語(yǔ)言化動(dòng)作解碼為具體的機(jī)器人動(dòng)作指令。

圖右側(cè):

用戶可直接對(duì)機(jī)器人動(dòng)作指令請(qǐng)求進(jìn)行干預(yù),為機(jī)器人行為提供語(yǔ)言化動(dòng)作修正,例如此處將“向前移動(dòng)手臂” 改為 “向左移動(dòng)手臂”。為了從修正中學(xué)習(xí),只需用新標(biāo)注的語(yǔ)言化動(dòng)作修正更新語(yǔ)言動(dòng)作指令請(qǐng)求。隨后,將更新后的模型重新部署到動(dòng)作層級(jí)結(jié)構(gòu)中。

RT-H通過(guò)端到端的方式學(xué)習(xí)預(yù)測(cè)語(yǔ)言化動(dòng)作指令和機(jī)器人動(dòng)作指令,不僅能夠在語(yǔ)言化動(dòng)作空間中進(jìn)行修正,還能從這些修正中高效學(xué)習(xí)。

當(dāng)所學(xué)策略難以順利執(zhí)行任務(wù)時(shí),語(yǔ)言化動(dòng)作能再次發(fā)揮作用:它們?yōu)樵诰人類修正提供了一個(gè)直觀的交互界面,且這種修正與特定場(chǎng)景相關(guān)聯(lián)。通過(guò)語(yǔ)言化動(dòng)作訓(xùn)練的策略,能夠自然地遵循人類的低級(jí)修正指令,并借助修正數(shù)據(jù)成功完成任務(wù)。此外,該策略甚至可以在語(yǔ)言修正數(shù)據(jù)上進(jìn)行訓(xùn)練,從而進(jìn)一步提升自身性能。

1. RT-H模型訓(xùn)練

RT-H采用基于互聯(lián)網(wǎng)多模態(tài)數(shù)據(jù)聯(lián)合預(yù)訓(xùn)練的單一視覺(jué)語(yǔ)言模型VLM),學(xué)習(xí)高層任務(wù)策略π與底層機(jī)器人控制策略π。

RT-H采用與RT-2相同的PaLI-X 55B架構(gòu)實(shí)例化視覺(jué)語(yǔ)言模型(VLM)。該模型通過(guò)ViT編碼器將圖像處理為圖像令牌(Image Tokens),再由編碼器-解碼器Transformer聯(lián)合處理這些圖像令牌與自然語(yǔ)言指令令牌,輸出離散動(dòng)作令牌(Action Tokens)。

這些動(dòng)作令牌的生成方式沿襲RT-2的離散化機(jī)制:將每個(gè)動(dòng)作維度離散化為256個(gè)區(qū)間(bins),并將區(qū)間編碼為整數(shù)值。每個(gè)動(dòng)作包含末端執(zhí)行器的位置/軸角旋轉(zhuǎn)變化量、夾爪開合動(dòng)作指令以及任務(wù)終止標(biāo)志。

隨后,RT-H 使用與 RT-2 相同的 PaLI-X 訓(xùn)練混合數(shù)據(jù)進(jìn)行聯(lián)合訓(xùn)練,并從預(yù)訓(xùn)練檢查點(diǎn)開始。在該聯(lián)合訓(xùn)練過(guò)程中,視覺(jué) Transformer(ViT)編碼器被凍結(jié)。RT-H 以相同的采樣率,用語(yǔ)言化動(dòng)作指令請(qǐng)求和機(jī)器人動(dòng)作指令請(qǐng)求替代了 RT-2 中的機(jī)器人動(dòng)作指令請(qǐng)求。使用單一模型簡(jiǎn)化了訓(xùn)練過(guò)程,并使語(yǔ)言化動(dòng)作指令請(qǐng)求和機(jī)器人動(dòng)作指令請(qǐng)求都能從 PaLI-X 訓(xùn)練混合數(shù)據(jù)中蘊(yùn)含的廣泛先驗(yàn)知識(shí)中獲益。

2. 語(yǔ)言化動(dòng)作的提取

為了低成本地提取每個(gè)片段中的每個(gè)時(shí)間步的可靠語(yǔ)言化動(dòng)作,DeepMind開發(fā)了一種依賴機(jī)器人本體感知信息的自動(dòng)標(biāo)注方案。

首先,將機(jī)器人末端執(zhí)行器位姿變化的每個(gè)維度與空間維度相關(guān)聯(lián)(例如,位置變化的z軸對(duì)應(yīng)上下方向)。針對(duì)所有 9 個(gè)動(dòng)作維度(3 個(gè)位置增量維度、3 個(gè)姿態(tài)增量維度、2 個(gè)基座移動(dòng)維度、1 個(gè)夾爪維度)執(zhí)行此操作后,就能確定機(jī)器人當(dāng)前的主要空間運(yùn)動(dòng)列表,例如 “手臂向上并向右移動(dòng)”“閉合夾爪”“手臂逆時(shí)針旋轉(zhuǎn)” 或 “基座向左轉(zhuǎn)動(dòng)”。之后,可以過(guò)濾掉低于選定 “小動(dòng)作” 閾值的維度,再按照動(dòng)作幅度的順序組合得到的動(dòng)作。

例如,如果機(jī)器人主要是向前移動(dòng)手臂,同時(shí)開始閉合夾爪,研究人員會(huì)提取出“向前移動(dòng)手臂并閉合夾爪” 這一語(yǔ)言化動(dòng)作。通過(guò)這種方式,語(yǔ)言的組合性使得從一組簡(jiǎn)單的已知?jiǎng)幼髦心軌蛱崛〕龀^(guò) 2500 種語(yǔ)言化動(dòng)作。

此外,由于這些語(yǔ)言化動(dòng)作直接源于動(dòng)作本身,因此在RT-H 中運(yùn)行動(dòng)作指令請(qǐng)求時(shí),它們對(duì)動(dòng)作本身具有很強(qiáng)的預(yù)測(cè)能力。

然而,語(yǔ)言化動(dòng)作在抽象層級(jí)的選擇上存在基本權(quán)衡的問(wèn)題:語(yǔ)言化動(dòng)作的顆粒度越細(xì),語(yǔ)言化動(dòng)作指令請(qǐng)求的預(yù)測(cè)難度越高,但對(duì)機(jī)器人動(dòng)作指令請(qǐng)求的指導(dǎo)性越強(qiáng);反之亦然。

二、RT-H:推理與修正

在測(cè)試階段,RT-H首先運(yùn)行語(yǔ)言化動(dòng)作指令請(qǐng)求(π)以推導(dǎo)語(yǔ)言化動(dòng)作序列,隨后將該序列輸入機(jī)器人動(dòng)作指令請(qǐng)求(π)生成具體的執(zhí)行動(dòng)作參數(shù)。

然而,由于兩個(gè)指令請(qǐng)求需在每一步時(shí)序中串行執(zhí)行,該過(guò)程使推理耗時(shí)翻倍。雖對(duì)小規(guī)模模型影響甚微,但對(duì)于RT-H中使用的55B參數(shù)的大型模型而言,必將引發(fā)不可避免的請(qǐng)求處理延遲問(wèn)題。

為應(yīng)對(duì)這一挑戰(zhàn),谷歌DeepMind提出兩種語(yǔ)言化動(dòng)作推理模式:

(1) 異步查詢:僅訓(xùn)練RT-H中的語(yǔ)言化動(dòng)作指令請(qǐng)求(π)預(yù)測(cè)未來(lái)一步動(dòng)作。測(cè)試時(shí),利用上一時(shí)間步推導(dǎo)的語(yǔ)言化動(dòng)作執(zhí)行當(dāng)前機(jī)器人動(dòng)作指令請(qǐng)求,同時(shí)并行預(yù)測(cè)下一時(shí)間步的語(yǔ)言化動(dòng)作。此方案通過(guò)批處理查詢實(shí)現(xiàn)與RT-2近乎同等的請(qǐng)求延遲。

(2) 固定頻率:每H步執(zhí)行一次語(yǔ)言化動(dòng)作指令請(qǐng)求,分?jǐn)傃舆t壓力。

在實(shí)驗(yàn)中,DeepMind選擇異步查詢方案,因語(yǔ)言化動(dòng)作常需在精確時(shí)間步變更,無(wú)法適配固定頻率帶來(lái)的約束。

結(jié)語(yǔ)

RT-H 通過(guò)訓(xùn)練將語(yǔ)言描述的任務(wù)映射為語(yǔ)言化動(dòng)作,然后利用推斷出的語(yǔ)言化動(dòng)作來(lái)預(yù)測(cè)具體動(dòng)作指令。它的優(yōu)勢(shì)在于:

(1) 學(xué)習(xí)不同任務(wù)間的共享結(jié)構(gòu),促進(jìn)多任務(wù)數(shù)據(jù)集的高效整合。

通過(guò)捕捉表面異構(gòu)任務(wù)間的任務(wù)結(jié)構(gòu)共性(如"倒水"與"取罐"共享抓取動(dòng)作),顯著提升跨任務(wù)數(shù)據(jù)復(fù)用能力,實(shí)現(xiàn)對(duì)大規(guī)模多任務(wù)數(shù)據(jù)集的高效吸收;

(2) 支持場(chǎng)景與任務(wù)上下文適配的語(yǔ)言化動(dòng)作修正。

允許人類通過(guò)語(yǔ)義指令(如"向左移動(dòng)5cm")在維持任務(wù)目標(biāo)的前提下,實(shí)時(shí)調(diào)整底層執(zhí)行策略,實(shí)現(xiàn)行為動(dòng)態(tài)優(yōu)化。

實(shí)驗(yàn)證明,RT-H模型通過(guò)利用這種語(yǔ)言-動(dòng)作分層結(jié)構(gòu),能夠高效利用多任務(wù)數(shù)據(jù)集,從而學(xué)習(xí)到魯棒性和適應(yīng)性更強(qiáng)的策略。研究還發(fā)現(xiàn),該策略不僅能響應(yīng)語(yǔ)言指令干預(yù),更能從這類干預(yù)中持續(xù)學(xué)習(xí),其表現(xiàn)顯著優(yōu)于基于遙操作示教干預(yù)的學(xué)習(xí)方法。

參考資料:

論文題目  :RT-H: Action Hierarchies Using Language 

論文地址:https://arxiv.org/pdf/2403.01823

       原文標(biāo)題 : 谷歌具身智能VLA模型RT-H—— 基于語(yǔ)言的動(dòng)作分層框架

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)