2022~2025:2萬(wàn)字講清谷歌在具身智能基礎(chǔ)模型領(lǐng)域的關(guān)鍵布局
谷歌在具身智能領(lǐng)域的布局以具身智能大模型為技術(shù)基座,通過端云協(xié)同推理、開源工具鏈下沉、跨形態(tài)硬件泛化適配及漸進(jìn)式場(chǎng)景驗(yàn)證,構(gòu)建從感知到執(zhí)行的協(xié)同框架,探索具身智能機(jī)器人從單一任務(wù)工具向通用具身智能體的演進(jìn)路徑。
谷歌具身智能基礎(chǔ)模型領(lǐng)域關(guān)鍵布局(機(jī)器覺醒時(shí)代制表)
2022年:谷歌具身智能基礎(chǔ)模型關(guān)鍵布局
1. 2022年4月,谷歌推出具身智能模型 SayCan
盡管大型語(yǔ)言模型(LLMs)能從海量文本中習(xí)得豐富知識(shí),但它們?nèi)狈?duì)物理世界的具象認(rèn)知,也無(wú)法觀測(cè)自身生成內(nèi)容對(duì)物理過程的實(shí)際影響,難以支持在特定具身化實(shí)體中進(jìn)行決策。
這使得其在將高級(jí)指令拆解為機(jī)器人可執(zhí)行的低級(jí)指令時(shí),不僅可能產(chǎn)生人類眼中荒謬甚至滑稽的錯(cuò)誤,更可能在特定物理場(chǎng)景中生成邏輯混亂或存在安全風(fēng)險(xiǎn)的指令解析。
如下圖所示:當(dāng)具備"抓取海綿"、"移動(dòng)到餐桌"等技能的廚房機(jī)器人收到"飲料灑了,能否幫忙清理?"的請(qǐng)求時(shí),語(yǔ)言模型可能給出看似合理卻無(wú)法執(zhí)行的方案——例如建議"使用吸塵器清理",但該方案在場(chǎng)景中無(wú)吸塵器,或具身智能體不具備操作吸塵器的能力時(shí),會(huì)完全失效,因?yàn)榫呱碇悄荏w的本體能力范圍通常是固定且有限的。
SayCan模型通過預(yù)訓(xùn)練技能的價(jià)值函數(shù)實(shí)現(xiàn)語(yǔ)言模型現(xiàn)實(shí)落地
1)具身智能模型—— SayCan
通過提示詞工程,大型語(yǔ)言模型或許能夠?qū)⒏呒?jí)指令分解為子任務(wù),但如果脫離機(jī)器人自身能力以及機(jī)器人與環(huán)境當(dāng)前狀態(tài)的語(yǔ)境,它就無(wú)法完成這種任務(wù)的分解。
因此,需要明確將高級(jí)指令分解為一系列可用的低級(jí)技能。其中,一種方法是精心設(shè)計(jì)提示詞,這是一種引導(dǎo)語(yǔ)言模型產(chǎn)生特定響應(yīng)結(jié)構(gòu)的技術(shù)。提示詞工程會(huì)在模型的上下文文本(即“提示詞”)中提供示例,明確指定任務(wù)以及模型需要模仿的響應(yīng)結(jié)構(gòu)。
然而,這并不足以將輸出完全限制在具身智能體可執(zhí)行的基本技能范圍內(nèi),實(shí)際上,它有時(shí)會(huì)生成不可執(zhí)行的動(dòng)作,或生成的語(yǔ)言格式難以解析為獨(dú)立步驟。
基于此,2022年4月,谷歌提出SayCan模型,旨在從大型語(yǔ)言模型(LLMs)中提取知識(shí)并將其應(yīng)用到實(shí)際物理任務(wù)的落地執(zhí)行中。其中,大型語(yǔ)言模型(Say)提供任務(wù)層面的落地能力,用于確定有助于實(shí)現(xiàn)高級(jí)目標(biāo)的有效動(dòng)作;而習(xí)得的可供性函數(shù)(Can)提供世界層面的落地能力,用于判斷計(jì)劃中哪些動(dòng)作(或計(jì)劃)是可執(zhí)行的。
具體來(lái)說(shuō),采用強(qiáng)化學(xué)習(xí)來(lái)為各個(gè)技能學(xué)習(xí)價(jià)值函數(shù),該函數(shù)通過可供性表征物理世界的可行操作空間;隨后,再將這些技能的文本標(biāo)簽作為潛在響應(yīng),由語(yǔ)言模型對(duì)其進(jìn)行評(píng)分。
因此,技能和語(yǔ)言模型相結(jié)合進(jìn)而形成了一種共生關(guān)系:技能及其價(jià)值函數(shù)可充當(dāng)語(yǔ)言模型的“手和眼”,而語(yǔ)言模型則提供關(guān)于如何完成任務(wù)的高層級(jí)語(yǔ)義知識(shí)。
通過預(yù)訓(xùn)練技能實(shí)現(xiàn)現(xiàn)實(shí)世界具身化 —— 這些技能將約束模型僅生成既可行又符合場(chǎng)景的文本動(dòng)作指令,從而讓機(jī)器人等具身智能體能夠遵循高級(jí)文本指令 —— 大語(yǔ)言模型負(fù)責(zé)提供執(zhí)行復(fù)雜時(shí)序擴(kuò)展指令的流程知識(shí),而技能關(guān)聯(lián)的價(jià)值函數(shù)則構(gòu)建起連接知識(shí)與物理環(huán)境的關(guān)鍵具身化橋梁。
除了讓大型語(yǔ)言模型單純解讀指令外,還可以借助它對(duì)“單個(gè)技能在推進(jìn)高級(jí)指令完成過程中所起作用的可能性” 進(jìn)行評(píng)分 —— 若每個(gè)技能都有一個(gè)可供性函數(shù)(如習(xí)得的價(jià)值函數(shù)),用于量化其從當(dāng)前狀態(tài)成功執(zhí)行的可能性,那么該函數(shù)的數(shù)值便可用于對(duì)技能的可能性進(jìn)行加權(quán)。
通過這種方式,大型語(yǔ)言模型會(huì)給出“每個(gè)技能對(duì)完成指令的貢獻(xiàn)概率”,而可供性函數(shù)會(huì)給出 “每個(gè)技能成功執(zhí)行的概率”—— 將兩者結(jié)合,就能得到 “每個(gè)技能成功完成指令的概率”。
另外,SayCan 還具有可解釋性特點(diǎn):模型不僅輸出生成式響應(yīng),還會(huì)給出多種可能響應(yīng)的概率分布。下圖展示了其核心機(jī)制:任務(wù)集(定義機(jī)器人低級(jí)策略可執(zhí)行的技能)與提示詞工程(提供計(jì)劃示例及人機(jī)對(duì)話格式約束)共同作用,將大型語(yǔ)言模型(LLM)的輸出約束為可執(zhí)行的技能序列。
SayCan模型執(zhí)行過程示意圖
2)在機(jī)器人系統(tǒng)中執(zhí)行SayCan
a. 語(yǔ)言條件型機(jī)器人控制策略
為實(shí)例化SayCan框架,需提供一組技能組件,每個(gè)組件包含策略模塊、價(jià)值函數(shù)及簡(jiǎn)短語(yǔ)言描述(例如"拾取易拉罐")。
在谷歌的實(shí)施方案中,各獨(dú)立技能的訓(xùn)練采用兩種方法:遵循BC-Z方法的圖像行為克隆,或采用MT-Opt的強(qiáng)化學(xué)習(xí)。
無(wú)論技能策略如何獲取,均使用基于時(shí)序差分備份(TD backups)訓(xùn)練的價(jià)值函數(shù)作為該技能的功能可供性模型。雖然當(dāng)前數(shù)據(jù)收集階段顯示行為克隆策略成功率更高,但強(qiáng)化學(xué)習(xí)策略提供的價(jià)值函數(shù)作為關(guān)鍵抽象層,能將控制能力轉(zhuǎn)化為場(chǎng)景語(yǔ)義理解。
為降低多技能訓(xùn)練成本,谷歌分別采用多任務(wù)行為克隆與多任務(wù)強(qiáng)化學(xué)習(xí)方案:通過以語(yǔ)言描述為輸入條件的多任務(wù)策略模型,替代為每個(gè)技能單獨(dú)訓(xùn)練策略和價(jià)值函數(shù)的傳統(tǒng)模式。
為了讓策略以語(yǔ)言為條件,谷歌采用了一個(gè)預(yù)訓(xùn)練的大型句子編碼器語(yǔ)言模型。在訓(xùn)練過程中,凍結(jié)該語(yǔ)言模型的參數(shù),并使用通過輸入每個(gè)技能的文本描述生成的嵌入向量。這些文本嵌入向量被用作策略和價(jià)值函數(shù)的輸入,用于指定應(yīng)執(zhí)行的技能。
由于用于生成文本嵌入向量的語(yǔ)言模型與用于規(guī)劃的語(yǔ)言模型不一定相同,因此SayCan 能夠靈活運(yùn)用不同的語(yǔ)言模型 —— 這些模型分別適用于不同的抽象層級(jí),比如有的擅長(zhǎng)理解涉及多個(gè)技能的規(guī)劃,有的則更適合細(xì)致地表達(dá)特定技能。
b. 訓(xùn)練低級(jí)技能
谷歌分別采用行為克隆(BC)和強(qiáng)化學(xué)習(xí)(RL)的策略訓(xùn)練流程,以獲得受語(yǔ)言條件約束的策略和價(jià)值函數(shù)。
行為克隆(BC)策略:谷歌以BC-Z為基礎(chǔ),采用了類似的策略網(wǎng)絡(luò)架構(gòu)。該架構(gòu)的訓(xùn)練中,連續(xù)動(dòng)作組件采用均方誤差(MSE)損失函數(shù),離散動(dòng)作組件采用交叉熵?fù)p失函數(shù),且每個(gè)動(dòng)作組件的權(quán)重相同。訓(xùn)練過程中使用了標(biāo)準(zhǔn)的圖像增強(qiáng)手段(隨機(jī)調(diào)整亮度和對(duì)比度)以及隨機(jī)裁剪。
BC策略中的網(wǎng)絡(luò)架構(gòu)
強(qiáng)化學(xué)習(xí)(RL)策略:谷歌在日常機(jī)器人模擬器中使用MT-Opt ,并結(jié)合 RetinaGAN 的模擬到現(xiàn)實(shí)遷移技術(shù)。通過利用模擬演示提供初始成功案例來(lái)提升模擬策略的性能,然后通過在線數(shù)據(jù)收集,持續(xù)改進(jìn)強(qiáng)化學(xué)習(xí)效果。
RL策略中的網(wǎng)絡(luò)架構(gòu)
備注:
1)采用稀疏獎(jiǎng)勵(lì)函數(shù):若語(yǔ)言指令在一個(gè)回合結(jié)束時(shí)被成功執(zhí)行,獎(jiǎng)勵(lì)值為1.0;否則為0。語(yǔ)言指令的執(zhí)行成功與否由人工評(píng)定 —— 評(píng)定者會(huì)觀看機(jī)器人執(zhí)行技能的視頻以及給定的指令。如果三名評(píng)定者中有兩名認(rèn)為技能已成功完成,則該回合被標(biāo)記為正向獎(jiǎng)勵(lì)。
2)策略動(dòng)作空間包括:末端執(zhí)行器姿態(tài)的六個(gè)自由度、夾爪的開合指令、機(jī)器人移動(dòng)基座的x-y 位置和偏航角增量,以及終止動(dòng)作。
3) SayCan的局限性
盡管SayCan 方法為語(yǔ)言模型與智能體行動(dòng)能力的結(jié)合提供了可行路徑,但它仍存在諸多局限性。
首先,該方法繼承了大型語(yǔ)言模型(LLMs)的固有局限,尤其體現(xiàn)在對(duì)訓(xùn)練數(shù)據(jù)分布的強(qiáng)依賴上 —— 若訓(xùn)練數(shù)據(jù)中缺乏特定場(chǎng)景、指令或技能的樣本,語(yǔ)言模型可能無(wú)法生成合理的技能規(guī)劃,甚至?xí)敵雠c實(shí)際需求脫節(jié)的決策建議。
其次,盡管SayCan 支持用戶通過自然語(yǔ)言指令與智能體交互,但其性能的核心瓶頸在于底層技能庫(kù)的覆蓋范圍與執(zhí)行精度:若技能庫(kù)未包含完成任務(wù)所需的關(guān)鍵動(dòng)作(如特定場(chǎng)景下的抓取姿勢(shì)、精細(xì)操作步驟),即便語(yǔ)言模型規(guī)劃邏輯嚴(yán)密,智能體也無(wú)法將規(guī)劃轉(zhuǎn)化為有效行動(dòng)。
此外,當(dāng)前系統(tǒng)缺乏對(duì)技能執(zhí)行過程的實(shí)時(shí)反饋與動(dòng)態(tài)調(diào)整機(jī)制:當(dāng)個(gè)別技能在語(yǔ)言模型評(píng)估為“高價(jià)值” 的情況下實(shí)際執(zhí)行失效時(shí)(如預(yù)期抓取物體卻未成功),系統(tǒng)難以快速修正執(zhí)行路徑。盡管通過優(yōu)化語(yǔ)言模型的提示策略可能在一定程度上緩解這一問題,但復(fù)雜場(chǎng)景下的魯棒性仍待提升。
同時(shí),SayCan在復(fù)雜任務(wù)的長(zhǎng)時(shí)序規(guī)劃上存在短板。對(duì)于需要多步驟協(xié)同的任務(wù)(如 “整理桌面并將文件放入抽屜”),語(yǔ)言模型可能難以將自然語(yǔ)言指令分解為連貫的技能序列,容易出現(xiàn)步驟遺漏或邏輯沖突(如先關(guān)閉抽屜再試圖放入文件),導(dǎo)致任務(wù)執(zhí)行中斷。
另外,系統(tǒng)對(duì)環(huán)境動(dòng)態(tài)變化的適應(yīng)性較弱。若任務(wù)執(zhí)行過程中環(huán)境發(fā)生未預(yù)期的改變(如物體位置移動(dòng)、突發(fā)障礙物出現(xiàn)),預(yù)先規(guī)劃的技能序列可能不再適用,而語(yǔ)言模型難以基于實(shí)時(shí)環(huán)境反饋快速更新規(guī)劃,導(dǎo)致智能體陷入“規(guī)劃 - 執(zhí)行” 脫節(jié)的困境。
最后,安全性校驗(yàn)機(jī)制的缺失也是重要局限。語(yǔ)言模型可能推薦存在潛在風(fēng)險(xiǎn)的技能(如抓取易碎品時(shí)采用不當(dāng)力度),但系統(tǒng)缺乏對(duì)技能安全性的前置評(píng)估,可能引發(fā)物體損壞或環(huán)境干擾等問題。
2. 2022年5月:谷歌發(fā)布通用具身智能體Gato
2022年5月,DeepMind發(fā)布通用具身智能體 Gato。它是一個(gè)集多模態(tài)、多任務(wù)、多具身特性于一體的通用智能體,其核心架構(gòu)采用了包含 11.8 億參數(shù)的Transformer序列模型。
核心設(shè)計(jì):
繼承LLM的Transformer序列建模范式,通過將跨模態(tài)數(shù)據(jù)序列化(圖像分塊、動(dòng)作離散化)擴(kuò)展至物理交互領(lǐng)域;基于廣泛的多模態(tài)數(shù)據(jù)訓(xùn)練(涵蓋圖像、文本、本體狀態(tài)感知、關(guān)節(jié)扭矩、按鈕操作等),賦予模型對(duì)離散/連續(xù)觀測(cè)與動(dòng)作的泛化處理能力。
通過使用一組具有相同權(quán)重的單一神經(jīng)網(wǎng)絡(luò),可處理不同具身形態(tài)(如機(jī)械臂、仿生機(jī)器人)的多源傳感數(shù)據(jù),實(shí)現(xiàn)跨場(chǎng)景感知與動(dòng)作生成。
通用智能體Gato可適配不同具身形態(tài)
1)基礎(chǔ)模型訓(xùn)練數(shù)據(jù)
a. 控制任務(wù)數(shù)據(jù)(占比 85.3%):包含游戲交互(如Atari游戲按鍵序列)、機(jī)器人操作(真實(shí)機(jī)械臂關(guān)節(jié)力矩、本體狀態(tài)感知數(shù)據(jù))以及導(dǎo)航與規(guī)劃任務(wù)(如Meta-World中的機(jī)械臂操控、BabyAI中的3D導(dǎo)航)。這些數(shù)據(jù)主要來(lái)自模擬環(huán)境(如MuJoCo、DM Control Suite)和真實(shí)機(jī)器人平臺(tái)(如Sawyer機(jī)械臂)的軌跡記錄,總計(jì)覆蓋596項(xiàng)任務(wù),占訓(xùn)練數(shù)據(jù)總量的85.3%。
b. 視覺與語(yǔ)言數(shù)據(jù)(占比 14.7%):整合了純文本語(yǔ)料(對(duì)話、網(wǎng)頁(yè)文本)、圖像數(shù)據(jù)(如ImageNet)及圖文配對(duì)信息(圖像描述任務(wù))。此類數(shù)據(jù)用于支持圖像字幕生成、文本對(duì)話等能力,但其占比顯著低于控制任務(wù)。
Gato模型訓(xùn)練所使用數(shù)據(jù)集
2)模型的訓(xùn)練與部署
a. 訓(xùn)練階段
來(lái)自不同任務(wù)和模態(tài)的數(shù)據(jù)被序列化為一個(gè)扁平的 Token 序列,分批處理后由 Transformer 神經(jīng)網(wǎng)絡(luò)處理。通過掩碼機(jī)制,損失函數(shù)僅應(yīng)用于目標(biāo)輸出(即文本和各種動(dòng)作)。
Gato訓(xùn)練階段示意圖
b. 部署階段
采樣的 Tokens 會(huì)根據(jù)上下文組合成對(duì)話回復(fù)、圖像字幕、按鈕操作或其他動(dòng)作。Gato 使用自回歸生成控制策略,預(yù)測(cè) t+1 的編碼并反解碼為動(dòng)作,與環(huán)境交互。
將Gato部署為策略的過程示意圖
3)Gato —— 邁向AGI的關(guān)鍵一步
Gato 首次提出 “通才智能體(Generalist Agent)”概念,將 AI研究從“任務(wù)特定優(yōu)化”轉(zhuǎn)向“跨多任務(wù)統(tǒng)一建模”。
a. 方法論革新:擴(kuò)展LLM的“預(yù)訓(xùn)練+微調(diào)”范式至物理交互場(chǎng)景,通過數(shù)據(jù)序列化(圖像分塊、動(dòng)作離散化等)實(shí)現(xiàn)多模態(tài)統(tǒng)一處理,首次驗(yàn)證Transformer在低維連續(xù)控制任務(wù)(如機(jī)械臂操作)中的潛力,但未突破其短期記憶瓶頸。例如,Gato在物理任務(wù)中依賴專家演示數(shù)據(jù),且未解決長(zhǎng)期記憶問題(上下文窗口僅1024 tokens)。
b. AGI路徑探索:通過參數(shù)縮放實(shí)驗(yàn)(79M→364M→1.18B)驗(yàn)證模型規(guī)模、數(shù)據(jù)多樣性與多任務(wù)泛化能力的正相關(guān)性,為通用模型研發(fā)提供實(shí)證依據(jù);但后續(xù)研究表明,單純擴(kuò)大規(guī)模難以提升專業(yè)化能力,需結(jié)合“通專融合”架構(gòu)解決任務(wù)可持續(xù)性問題。
Gato驗(yàn)證并實(shí)現(xiàn)了跨模態(tài)統(tǒng)一建模,將計(jì)算機(jī)視覺(CV)、自然語(yǔ)言處理(NLP)和機(jī)器人控制等不同模態(tài)數(shù)據(jù)(如圖像、文本、傳感器信號(hào)、關(guān)節(jié)力矩)通過統(tǒng)一的Transformer 序列模型進(jìn)行處理。
數(shù)據(jù)序列化:所有模態(tài)數(shù)據(jù)被轉(zhuǎn)化為Token序列(如文本通過SentencePiece編碼,圖像分割為 16x16 圖塊,連續(xù)狀態(tài)和動(dòng)作通過標(biāo)量離散化),形成統(tǒng)一輸入空間;
模型參數(shù)共享:同一套11.8 億參數(shù)的模型可同時(shí)處理視覺識(shí)別、語(yǔ)言對(duì)話、機(jī)器人操作等任務(wù),避免了傳統(tǒng)方法為每個(gè)任務(wù)單獨(dú)設(shè)計(jì)模型的冗余;
動(dòng)態(tài)決策:模型基于輸入序列的上下文自回歸地預(yù)測(cè)下一個(gè)Token,該Token可以自動(dòng)對(duì)應(yīng)到不同的輸出模態(tài)(如生成文本回復(fù)、游戲按鍵或機(jī)械臂控制指令),實(shí)現(xiàn)跨模態(tài)無(wú)縫交互。
總而言之,Gato在跨模態(tài)整合、任務(wù)通用性上的突破,被學(xué)界視為邁向通用人工智能的關(guān)鍵一步。
4)Gato的局限性
有業(yè)內(nèi)相關(guān)專家指出,Gato模型的最大價(jià)值之一是將強(qiáng)化學(xué)習(xí)、計(jì)算機(jī)視覺與自然語(yǔ)言處理三大領(lǐng)域深度融合。盡管技術(shù)路徑上借鑒了既有框架,但能將圖像、文本與機(jī)器控制等不同模態(tài)數(shù)據(jù)映射至同一表征空間,并用同一套模型參數(shù)實(shí)現(xiàn)統(tǒng)一表達(dá),已實(shí)屬難得。
但是,Gato總體上依然是數(shù)據(jù)驅(qū)動(dòng)的方式,且并沒有在訓(xùn)練分布外的任務(wù)上獲得較好效果。同時(shí),訓(xùn)練數(shù)據(jù)總體上偏向游戲和機(jī)器人控制任務(wù),采用有監(jiān)督的離線訓(xùn)練方式,依賴專家數(shù)據(jù),未充分利用強(qiáng)化學(xué)習(xí)的核心機(jī)制——獎(jiǎng)勵(lì)信號(hào)和在線交互。例如,其機(jī)器人控制任務(wù)的成功依賴預(yù)訓(xùn)練的專家軌跡,而非通過實(shí)時(shí)獎(jiǎng)勵(lì)優(yōu)化策略。
這一局限性在后續(xù)模型RoboCat中通過自我改進(jìn)循環(huán)(Self-Improvement Loop)得到部分解決。
3. 2022年10月:谷歌發(fā)布機(jī)器人Transformer模型RT-1
2022 年 10 月,谷歌 DeepMind 發(fā)布 RT-1 模型,其訓(xùn)練數(shù)據(jù)源自 13 臺(tái)機(jī)器人持續(xù) 17 個(gè)月采集的超 13 萬(wàn)條任務(wù)片段。該研究開創(chuàng)性地將Transformer的應(yīng)用向前推進(jìn) —— 將語(yǔ)言和視覺觀測(cè)到機(jī)器人動(dòng)作的映射視為一個(gè)序列建模問題,并利用Transformer學(xué)習(xí)這一映射。
能否借助多樣化的機(jī)器人任務(wù)數(shù)據(jù),訓(xùn)練出統(tǒng)一且強(qiáng)大的多任務(wù)骨干模型,使其具備對(duì)新任務(wù)、操作環(huán)境及物體的零樣本泛化能力?這一目標(biāo)面臨兩大核心挑戰(zhàn):數(shù)據(jù)集構(gòu)建與模型設(shè)計(jì)。谷歌RT-1模型正是針對(duì)該命題的突破性探索。在RT-1模型的研究探索中,谷歌DeepMind 研究人員發(fā)現(xiàn):
數(shù)據(jù)模型要實(shí)現(xiàn)優(yōu)質(zhì)泛化,必須構(gòu)建兼具規(guī)模與廣度的數(shù)據(jù)集,覆蓋多樣化任務(wù)與場(chǎng)景。同時(shí),數(shù)據(jù)集中的任務(wù)需具備強(qiáng)關(guān)聯(lián)性以支撐泛化,使模型能夠發(fā)現(xiàn)結(jié)構(gòu)相似任務(wù)間的內(nèi)在規(guī)律,并通過創(chuàng)新性組合完成新任務(wù)。
模型架構(gòu)設(shè)計(jì)的挑戰(zhàn)在于—— 高效的多任務(wù)機(jī)器人學(xué)習(xí)需要的高容量模型。
1)RT-1模型工作原理
RT-1執(zhí)行閉環(huán)控制,并以3Hz的頻率持續(xù)輸出動(dòng)作指令,直至觸發(fā)"終止"動(dòng)作或達(dá)到預(yù)設(shè)時(shí)間步上限。
首先通過ImageNet預(yù)訓(xùn)練的卷積網(wǎng)絡(luò)EfficientNet處理圖像,該網(wǎng)絡(luò)通過FiLM模塊與指令的預(yù)訓(xùn)練嵌入向量進(jìn)行條件調(diào)節(jié);隨后采用令牌學(xué)習(xí)器(tokenLearner)生成緊湊令牌集( set of tokens);最終由Transformer對(duì)這些令牌執(zhí)行注意力計(jì)算,輸出離散化動(dòng)作令牌(action token)。
RT-1工作流程圖
RT-1架構(gòu)包含以下核心內(nèi)容:
RT-1架構(gòu)圖
a. EfficientNet網(wǎng)絡(luò)
RT-1通過將6 幅圖像的歷史記錄輸入一個(gè)基于ImageNet 預(yù)訓(xùn)練的 EfficientNet-B3模型來(lái)對(duì)其進(jìn)行令牌化。
該模型接收分辨率為 300×300 的6幅圖像作為輸入,并從最終的卷積層輸出一個(gè)形狀為 9×9×512 的空間特征圖。
為了包含語(yǔ)言指令,研究人員使用預(yù)訓(xùn)練的語(yǔ)言嵌入形式,讓圖像令牌化器以自然語(yǔ)言指令為條件,從而能夠在早期提取任務(wù)相關(guān)的圖像特征,并提升 RT-1 的性能。
EfficientNet是一種卷積神經(jīng)網(wǎng)絡(luò)(CNN),是高效的 “圖像特征提取器”。它好比是提取畫面特征的“圖像翻譯官”,專門用來(lái)從圖像中提取特征,用于識(shí)別物體、分析場(chǎng)景等。
類似人類看照片時(shí)自動(dòng)識(shí)別 “物體輪廓”,該卷積網(wǎng)絡(luò)提前在 ImageNet(大規(guī)模圖像數(shù)據(jù)集)上學(xué)過識(shí)別貓、車、杯子等物體,能從攝像頭畫面中快速提取所要識(shí)別物體的關(guān)鍵特征。
b. FiLM 模塊
指令首先通過通用句子編碼器(USE)進(jìn)行嵌入。然后,將該嵌入用作輸入,輸入到恒等初始化的 FiLM層,這些 FiLM 層被添加到預(yù)訓(xùn)練的 EfficientNet 中,以調(diào)節(jié)圖像編碼器。
FiLM 模塊好比是指令與圖像的 “融合濾鏡”。指令(比如 “把杯子拿到桌子上”)會(huì)先被轉(zhuǎn)換成機(jī)器能懂的 “數(shù)字密碼”(預(yù)訓(xùn)練嵌入向量)。FiLM 模塊就像一個(gè)調(diào)節(jié)旋鈕,用這個(gè) “密碼” 去調(diào)整圖像特征:如果指令是 “拿杯子”,F(xiàn)iLM 會(huì)讓卷積網(wǎng)絡(luò)提取的特征更關(guān)注 “杯子的位置和把手”,忽略背景中的沙發(fā)。
c. TokenLearner(令牌學(xué)習(xí)器)
加入 TokenLearner后,將從預(yù)訓(xùn)練的 FiLM-EfficientNet層輸出的 81個(gè)視覺令牌二次采樣到僅剩8個(gè)最終令牌,然后這些令牌被傳遞到Transformer 層。
TokenLearner可類比成是特征的 “智能摘要工具”。卷積網(wǎng)絡(luò)處理后的圖像特征可能包含數(shù)萬(wàn)維數(shù)據(jù)(比如一張圖拆成 1000 個(gè)小區(qū)域的特征),直接處理像 “讀一本厚書”,效率很低。令牌學(xué)習(xí)器會(huì)自動(dòng)挑選最重要的特征,把海量數(shù)據(jù) “壓縮” 成幾十個(gè)關(guān)鍵 “令牌”(Token),類似從書中提取 “杯子、桌子、位置” 等關(guān)鍵詞,扔掉無(wú)關(guān)細(xì)節(jié)(比如杯子上的花紋)。這樣一來(lái),數(shù)據(jù)量大幅減少,后續(xù)模型處理速度就像 “從讀整本書變成看目錄”,效率飆升。
d. Transformer
每幅圖像產(chǎn)生的這8個(gè)令牌隨后會(huì)與歷史記錄中的其他圖像令牌拼接,形成總共 48 個(gè)令牌(并添加了位置編碼),輸入到 RT-1 的 Transformer 骨干網(wǎng)絡(luò)中。該Transformer 是一個(gè)19M參數(shù)的,且僅包含解碼器的序列模型,具有8個(gè)自注意力層,其輸出是動(dòng)作令牌。
Transformer可以看成是基于“關(guān)鍵詞”的注意力決策者。Transformer 就像一個(gè)經(jīng)驗(yàn)豐富的 “規(guī)劃師”,它會(huì)分析壓縮后的令牌(圖像關(guān)鍵詞)和指令密碼,并最終輸出機(jī)器人的動(dòng)作執(zhí)行指令。
e. 其它
動(dòng)作令牌化(Action Tokenization)—— 為了對(duì)動(dòng)作進(jìn)行令牌化,RT-1中的每個(gè)動(dòng)作維度都被離散化為256個(gè)bins。
動(dòng)作維度包括:機(jī)械臂運(yùn)動(dòng)的七個(gè)變量(x, y, z, roll, pitch, yaw, 夾爪開合度)、底盤運(yùn)動(dòng)的三個(gè)變量(x, y, yaw)以及一個(gè)用于在三種模式(控制機(jī)械臂、控制底盤和終止任務(wù)片段)間切換的離散變量。
對(duì)于每個(gè)變量,研究人員將目標(biāo)值映射到這256個(gè)bins中的一個(gè),這些bins在每個(gè)變量的取值范圍內(nèi)均勻分布。
損失函數(shù) —— 研究人員使用了標(biāo)準(zhǔn)的分類交叉熵目標(biāo)函數(shù)和因果掩碼。
推理速度—— 一個(gè)需要在真實(shí)機(jī)器人上實(shí)時(shí)運(yùn)行的模型的獨(dú)特要求之一是快速且穩(wěn)定的推理速度。研究人員采用了兩種技術(shù)來(lái)加速推理:
通過使用TokenLearner,減少由預(yù)訓(xùn)練 EfficientNet 模型生成的令牌數(shù)量;
僅計(jì)算這些令牌一次,并在后續(xù)存在重疊的推理窗口中復(fù)用它們。
這兩項(xiàng)技術(shù)將模型推理速度分別提升了2.4倍和1.7倍。
2) RT-1局限性
盡管RT-1 在多項(xiàng)關(guān)鍵指標(biāo)上表現(xiàn)突出:以 97% 成功率執(zhí)行超 700 條指令,在新任務(wù)、物體與環(huán)境的泛化能力上超越已發(fā)布基線模型;能有效融合模擬環(huán)境與異構(gòu)機(jī)器人形態(tài)的數(shù)據(jù),且在不削弱原任務(wù)性能的前提下增強(qiáng)新場(chǎng)景適應(yīng)性;還可在SayCan框架中完成長(zhǎng)達(dá)50步的長(zhǎng)時(shí)程任務(wù) —— 但該模型仍存在一定局限性。
RT-1 的訓(xùn)練數(shù)據(jù)雖覆蓋大規(guī)模操作任務(wù),但主要針對(duì)靈巧度要求不高的操作場(chǎng)景;
RT-1是一種模仿學(xué)習(xí)方法,繼承了該類方法固有的挑戰(zhàn),例如,可能無(wú)法超越演示者的性能水平。
RT-1對(duì)新指令的泛化僅限于先前見過的概念組合,尚無(wú)法泛化到前所未見的全新動(dòng)作。
2023年:谷歌具身智能基礎(chǔ)模型關(guān)鍵布局
1. 2023年3月:谷歌發(fā)布具身多模態(tài)視覺語(yǔ)言大模型PaLM-E
2023年3月,谷歌和柏林工業(yè)大學(xué)的團(tuán)隊(duì)正式推出PaLM-E。該模型之所以命名為 PaLM-E,是因?yàn)樗捎?PaLM作為預(yù)訓(xùn)練語(yǔ)言模型,并使其具備了具身能力(Embodied)。
PaLM-E是一個(gè)單一的、大型的通用型多模態(tài)語(yǔ)言模型,能夠?qū)⒁曈X-語(yǔ)言領(lǐng)域的知識(shí)遷移到具身推理領(lǐng)域,適用于具身推理任務(wù)、視覺-語(yǔ)言任務(wù)和語(yǔ)言任務(wù),包括序列化機(jī)器人操作規(guī)劃、視覺問答和圖像描述生成等。
該模型可直接整合來(lái)自具身智能體傳感器模態(tài)的連續(xù)輸入,從而使語(yǔ)言模型本身能夠做出更貼近現(xiàn)實(shí)的推理,以支持現(xiàn)實(shí)世界中的序列化決策。
圖像和狀態(tài)估計(jì)等輸入會(huì)被嵌入到與語(yǔ)言令牌(Language Tokens)相同的潛在嵌入空間中,并由基于 Transformer 的大型語(yǔ)言模型(LLM)的自注意力層以與處理文本相同的方式進(jìn)行處理。
PaLM-E系統(tǒng)架構(gòu)
1)PaLM-E模型整體架構(gòu)
PaLM-E模型的架構(gòu)由三部分構(gòu)成:多模態(tài)編碼器、投影器和僅含解碼器的大型語(yǔ)言模型(LLM)。它能在給定前綴或提示的情況下,以自回歸方式生成文本補(bǔ)全內(nèi)容。
其主要架構(gòu)思路是將連續(xù)的具身觀察信息(如圖像、狀態(tài)估計(jì)或其他傳感器模態(tài))注入預(yù)訓(xùn)練語(yǔ)言模型的語(yǔ)言嵌入空間。其具體實(shí)現(xiàn)方式: 將連續(xù)觀察信息編碼為一系列向量,這些向量的維度與語(yǔ)言標(biāo)記的嵌入空間維度相同。因此,連續(xù)信息以類似于語(yǔ)言令牌的方式被注入語(yǔ)言模型中。
PaLM-E 的輸入: 包括文本和(多個(gè))連續(xù)觀察數(shù)據(jù)。與這些觀察數(shù)據(jù)對(duì)應(yīng)的多模態(tài)令牌與文本交錯(cuò)排列,形成多模態(tài)句子。例如:What happened between and ? where represents an embedding of an image. 其中,代表圖像的嵌入向量。
PaLM-E 的輸出: 是模型通過自回歸方式生成的文本,既可以是問題的答案,也可以是PaLM-E 以文本形式生成的、由機(jī)器人執(zhí)行的一系列決策。
為實(shí)現(xiàn)模型輸出與具身智能體的連接,該研究將其區(qū)分為兩種具體情況:
a. 如果任務(wù)僅通過輸出文本即可完成(例如,在具身問答或場(chǎng)景描述任務(wù)中),那么模型的輸出就直接被視為該任務(wù)的解決方案。
b. 如果是解決具身規(guī)劃或控制任務(wù),它會(huì)生成文本以調(diào)控低級(jí)指令。
具體而言,假設(shè)有一些策略能夠執(zhí)行來(lái)自某個(gè)(小型)詞匯表的低級(jí)技能,而PaLM-E 生成的有效規(guī)劃必須由一系列此類技能構(gòu)成。
但是,PaLM-E 必須根據(jù)訓(xùn)練數(shù)據(jù)和提示信息自行判斷可用的技能,且沒有其他機(jī)制用于約束或過濾其輸出。盡管這些策略是受語(yǔ)言調(diào)控的,但它們無(wú)法解決長(zhǎng)時(shí)程任務(wù)或處理復(fù)雜指令。
因此,PaLM-E 被整合到控制環(huán)路中,其預(yù)測(cè)的決策由機(jī)器人通過低級(jí)策略執(zhí)行,進(jìn)而產(chǎn)生新的觀察結(jié)果 —— 基于這些結(jié)果,PaLM-E 可在必要時(shí)重新規(guī)劃。從這個(gè)意義上來(lái)說(shuō),PaLM-E可以被理解為一種高級(jí)策略,用于對(duì)低級(jí)策略進(jìn)行排序和控制。
2) 不同傳感器模態(tài)的輸入與場(chǎng)景表征
針對(duì)不同傳感器模態(tài)(如狀態(tài)估計(jì)向量、二維圖像等),需采用專用編碼器進(jìn)行處理。為此,谷歌提出差異化的編碼器架構(gòu)選擇:通過映射函數(shù)將對(duì)應(yīng)模態(tài)數(shù)據(jù)對(duì)齊至語(yǔ)言嵌入空間。具體研究涵蓋以下模態(tài)處理方案:
狀態(tài)估計(jì)向量:采用多層感知器(MLP)。狀態(tài)向量(例如來(lái)自機(jī)器人的向量或?qū)ο蟮臓顟B(tài)估計(jì)向量)包含這些對(duì)象的位姿、大小、顏色等信息。多層感知器(MLP)會(huì)將狀態(tài)向量映射到語(yǔ)言嵌入空間中。
二維圖像特征:采用視覺 Transformer(ViT)。ViT是一種Transformer架構(gòu),能將圖像映射為多個(gè)標(biāo)記嵌入向量。研究人員考慮了多種變體,包括 40 億參數(shù)模型的ViT-4B),以及220 億參數(shù)模型 ViT-22B,這兩種模型均在圖像分類任務(wù)上進(jìn)行過預(yù)訓(xùn)練。
三維場(chǎng)景表征:采用對(duì)象場(chǎng)景表征Transformer(OSRT)。它不依賴于對(duì)象的外部知識(shí),而是通過架構(gòu)中的歸納偏置以無(wú)監(jiān)督方式發(fā)現(xiàn)對(duì)象; SRT,OSRT 通過新穎的視圖合成任務(wù),在領(lǐng)域內(nèi)數(shù)據(jù)上學(xué)習(xí)以三維為中心的神經(jīng)場(chǎng)景表征。
3)PaLM-E模型訓(xùn)練方法
PaLM-E 以預(yù)訓(xùn)練的PaLM 模型(分別為80億、620億和5400億參數(shù)的僅含解碼器版本)為基礎(chǔ),通過輸入編碼器向其中注入連續(xù)觀察數(shù)據(jù)。
PaLM-E-12B:80 億參數(shù)LLM與 40 億參數(shù)ViT相結(jié)合;
PaLM-E-84B:620億參數(shù)LLM與220億參數(shù)ViT相結(jié)合;
PaLM-E-562B:5400億參數(shù)LLM與 220 億參數(shù)ViT相結(jié)合。
備注:PaLM-E-562B ——盡管它僅在單圖像樣本上進(jìn)行過訓(xùn)練,但卻具備多種能力,包括零樣本多模態(tài)思維鏈(CoT)推理、少樣本提示、無(wú)需光學(xué)字符識(shí)別(OCR)的數(shù)學(xué)推理以及多圖像推理。
a. 訓(xùn)練方法1:更新所有組件的參數(shù)。然而,若能提供合適的提示,大型語(yǔ)言模型會(huì)展現(xiàn)出令人印象深刻的推理能力。
b. 訓(xùn)練方法2:凍結(jié)大型語(yǔ)言模型,僅訓(xùn)練輸入編碼器;在這種情況下,編碼器必須生成嵌入向量,使凍結(jié)的大型語(yǔ)言模型能基于觀察數(shù)據(jù),并將具身實(shí)體的能力信息傳遞給大型語(yǔ)言模型。訓(xùn)練此類編碼可理解為一種輸入條件化的軟提示,與常規(guī)軟提示相關(guān)。
c. 訓(xùn)練方法3:跨任務(wù)協(xié)同訓(xùn)練: 在多種不同數(shù)據(jù)上對(duì)模型進(jìn)行協(xié)同訓(xùn)練。其中,“完整混合數(shù)據(jù)集”主要包含大規(guī);ヂ(lián)網(wǎng)級(jí)別的視覺 - 語(yǔ)言數(shù)據(jù),涵蓋多種任務(wù)。其采樣頻率設(shè)置為:完整混合數(shù)據(jù)集中僅有 8.9% 是具身數(shù)據(jù),且每個(gè)具身場(chǎng)景下包含多個(gè)任務(wù)。
實(shí)驗(yàn)結(jié)果顯示,相較于僅在不同任務(wù)上單獨(dú)訓(xùn)練,在“完整混合數(shù)據(jù)集” 上進(jìn)行協(xié)同訓(xùn)練的模型,性能提升了一倍以上。
4)研究發(fā)現(xiàn)
a. 盡管當(dāng)前最先進(jìn)的通用視覺- 語(yǔ)言模型在零樣本情況下無(wú)法很好地解決具身推理問題,但通過訓(xùn)練,在多模態(tài)大型語(yǔ)言模型的訓(xùn)練中融入具身數(shù)據(jù),可以訓(xùn)練出一個(gè)具備通用性、遷移學(xué)習(xí)能力且適用于多具身形式的決策智能體 —— 一個(gè)既能勝任通用視覺 - 語(yǔ)言任務(wù),又能高效進(jìn)行具身推理的模型。
b. 相較于單任務(wù)訓(xùn)練范式,多任務(wù)聯(lián)合訓(xùn)練顯著提升模型綜合性能。其核心價(jià)值在于跨任務(wù)知識(shí)遷移能力——該機(jī)制大幅提高機(jī)器人任務(wù)的數(shù)據(jù)利用效率(例如僅需10%的示范數(shù)據(jù)即可達(dá)到同等成功率),并賦予模型對(duì)新物體組合的強(qiáng)泛化能力(單樣本泛化成功率提升37%)及開放世界物體的零樣本操作能力。
c. 在多模態(tài)模型聯(lián)合訓(xùn)練過程中,研究揭示兩種保持PaLM-E語(yǔ)言能力的有效途徑:
參數(shù)凍結(jié)策略:鎖定大型語(yǔ)言模型(LLM)參數(shù),僅訓(xùn)練輸入編碼器——此方案顯著降低訓(xùn)練成本,成為構(gòu)建具身語(yǔ)言模型的高效方法。
規(guī)模化端到端訓(xùn)練:當(dāng)進(jìn)行全模型端到端訓(xùn)練時(shí),模型參數(shù)量與語(yǔ)言能力保留度呈正相關(guān)(例如562B的PaLM-E模型保留540B的PaLM模型96%的語(yǔ)言性能),可有效抑制具身化過程中的災(zāi)難性遺忘現(xiàn)象。
基于語(yǔ)言任務(wù)的實(shí)驗(yàn)結(jié)果
備注:通用語(yǔ)言任務(wù)實(shí)驗(yàn)結(jié)果表明——隨著模型規(guī)模擴(kuò)大,PaLM-E模型相較于其基礎(chǔ)PaLM模型的災(zāi)難性遺忘程度顯著降低。
2. 2023年6月:谷歌發(fā)布通用智能體RoboCat
2023年6月,谷歌DeepMind推出多具身形態(tài)、多任務(wù)通用智能體RoboCat——一種基于視覺目標(biāo)條件的決策Transformer,可處理動(dòng)作標(biāo)注的視覺經(jīng)驗(yàn)數(shù)據(jù),能夠通過自身生成的數(shù)據(jù)進(jìn)行訓(xùn)練迭代實(shí)現(xiàn)自我改進(jìn)。
1)對(duì)Gato的繼承和創(chuàng)新RoboCat
直接沿用Gato的多模態(tài)Transformer架構(gòu)作為基礎(chǔ),將視覺、語(yǔ)言、動(dòng)作數(shù)據(jù)統(tǒng)一處理為離散token序列。這一設(shè)計(jì)被認(rèn)為是DeepMind在通用智能體Gato的技術(shù)路線上的延續(xù)。
另外,在Gato基礎(chǔ)上,RoboCat針對(duì)機(jī)器人任務(wù)強(qiáng)化了以下能力:
a. 動(dòng)作輸出適配:RoboCat 針對(duì)機(jī)器人任務(wù)的動(dòng)作頭擴(kuò)展并非簡(jiǎn)單的維度調(diào)整,而是通過動(dòng)態(tài)動(dòng)作空間映射實(shí)現(xiàn)的深度優(yōu)化。
多自由度兼容設(shè)計(jì):動(dòng)作頭支持混合動(dòng)作表示,可同時(shí)處理離散動(dòng)作(如按鍵)和連續(xù)動(dòng)作(如關(guān)節(jié)力矩);引入動(dòng)作頭參數(shù)共享機(jī)制,即不同機(jī)械臂的動(dòng)作頭共享底層Transformer 參數(shù),但通過任務(wù)特定的適配器(Adapter)實(shí)現(xiàn)自由度差異的動(dòng)態(tài)適配。
硬件無(wú)關(guān)的控制接口:通過統(tǒng)一動(dòng)作語(yǔ)義空間實(shí)現(xiàn)跨機(jī)械臂遷移。例如,抓取動(dòng)作在不同機(jī)械臂中被抽象為"閉合夾具" 的語(yǔ)義指令,動(dòng)作頭根據(jù)當(dāng)前機(jī)械臂的自由度自動(dòng)生成具體的關(guān)節(jié)角度序列。另外,引入動(dòng)作空間正則化技術(shù):在訓(xùn)練階段,通過對(duì)抗訓(xùn)練使動(dòng)作頭輸出分布與機(jī)械臂物理約束對(duì)齊,避免生成超出關(guān)節(jié)極限的動(dòng)作。
b. 目標(biāo)條件策略:RoboCat 的目標(biāo)圖像輸入通道并非簡(jiǎn)單的輸入擴(kuò)展,而是構(gòu)建了端到端的視覺 - 動(dòng)作閉環(huán)。
目標(biāo)圖像的多模態(tài)融合:目標(biāo)圖像通過預(yù)訓(xùn)練的VQ-GAN 編碼器轉(zhuǎn)化為 token 序列,并與當(dāng)前觀測(cè)圖像 token、動(dòng)作 token、任務(wù)描述 token 共同輸入 Transformer;引入目標(biāo)-觀測(cè)注意力機(jī)制:Transformer 在處理序列時(shí),會(huì)動(dòng)態(tài)計(jì)算目標(biāo)圖像 token 與當(dāng)前觀測(cè) token 的相關(guān)性,優(yōu)先關(guān)注需要調(diào)整的區(qū)域。
閉環(huán)控制的實(shí)時(shí)性優(yōu)化:采用時(shí)序目標(biāo)對(duì)齊技術(shù),將目標(biāo)圖像分解為時(shí)間序列token,并與當(dāng)前動(dòng)作序列token 進(jìn)行時(shí)序?qū)R訓(xùn)練;引入失敗補(bǔ)償機(jī)制 —— 當(dāng)動(dòng)作執(zhí)行未達(dá)到目標(biāo)時(shí),模型會(huì)自動(dòng)生成補(bǔ)償動(dòng)作。
2) 自我改進(jìn)閉環(huán)學(xué)習(xí)機(jī)制
研究實(shí)驗(yàn)表明,RoboCat既能零樣本泛化到新任務(wù)與新形態(tài)機(jī)器人,也可僅通過100-1000個(gè)目標(biāo)任務(wù)樣本的微調(diào),快速適配到不同的新任務(wù),包括新機(jī)器人具身、未見過的行為、物體和感知變體(光照/視角等感知條件變化),以及從仿真模擬到真實(shí)的遷移。
此外,訓(xùn)練后的模型自身可生成數(shù)據(jù)用于后續(xù)訓(xùn)練迭代,從而構(gòu)建自我改進(jìn)閉環(huán)學(xué)習(xí)機(jī)制 —— 研究人員使用多樣化的訓(xùn)練數(shù)據(jù)集來(lái)訓(xùn)練該通用智能體的初始版本,該版本可通過100-1000 次演示數(shù)據(jù)微調(diào)至適配新任務(wù),隨后部署到真實(shí)機(jī)器人上,為這些任務(wù)生成更多數(shù)據(jù)。生成的新數(shù)據(jù)將被添加到訓(xùn)練數(shù)據(jù)集中,用于RoboCat的下一迭代版本訓(xùn)練,這種機(jī)制在一定程度上突破了傳統(tǒng)機(jī)器人依賴真機(jī)數(shù)據(jù)的局限,使模型能持續(xù)進(jìn)化變成可能。
如下圖所示,RoboCat通過自我改進(jìn)閉環(huán)流程持續(xù)提升智能體能力——增強(qiáng)其跨任務(wù)遷移性、通過微調(diào)擴(kuò)展適配任務(wù)范圍,并在現(xiàn)有任務(wù)中實(shí)現(xiàn)性能突破。
RoboCat自我改進(jìn)閉環(huán)流程機(jī)制
3)基礎(chǔ)模型訓(xùn)練數(shù)據(jù)
RoboCat 的訓(xùn)練數(shù)據(jù)集聚焦于視覺目標(biāo)條件下的機(jī)器人操作任務(wù),且針對(duì)性覆蓋了多形態(tài)硬件和復(fù)雜場(chǎng)景,包含400 萬(wàn)次機(jī)器人操作片段,涵蓋物體分揀、工具使用、導(dǎo)航等多樣化場(chǎng)景。
多具身形態(tài)適配:數(shù)據(jù)來(lái)自4 種不同類型的真實(shí)機(jī)器人(如 Sawyer、Panda 機(jī)械臂)及模擬環(huán)境,包含不同自由度、觀察空間和動(dòng)作規(guī)范的操作序列。
任務(wù)多樣性覆蓋:訓(xùn)練數(shù)據(jù)覆蓋253 項(xiàng)基礎(chǔ)任務(wù)及 141 項(xiàng)變體,涉及精密裝配(如齒輪插入、積木堆疊等)、基礎(chǔ)操作類(如抓取指定物體、分揀水果等)等場(chǎng)景。
4)RoboCat的局限性
在具身智能領(lǐng)域,機(jī)器人面臨的最大挑戰(zhàn)是如何像人類一樣快速適應(yīng)新任務(wù)與環(huán)境。RoboCat首次在通用機(jī)器人領(lǐng)域?qū)崿F(xiàn)了“學(xué)習(xí)-實(shí)踐-進(jìn)化”的完整閉環(huán),為破解這一難題提供了全新路徑。
這一突破性技術(shù)通過在模擬與真實(shí)環(huán)境中融合跨機(jī)器人經(jīng)驗(yàn),結(jié)合生成式人工智能的自我數(shù)據(jù)增強(qiáng)能力,顯著降低了新技能學(xué)習(xí)所需的人類演示數(shù)據(jù)量。然而,在動(dòng)態(tài)環(huán)境適應(yīng)性、跨本體泛化效率等方面仍存在明顯局限。
1)動(dòng)態(tài)環(huán)境應(yīng)對(duì)不足:物理建模深度的不夠
RoboCat在靜態(tài)桌面操作(如抓取固定物體、堆疊積木)中表現(xiàn)出色,但面對(duì)動(dòng)態(tài)交互場(chǎng)景時(shí)性能急劇下降。例如在抓取滾動(dòng)球體任務(wù)中,其成功率不足30%,遠(yuǎn)低于工業(yè)場(chǎng)景要求的95%+的可靠性標(biāo)準(zhǔn)。這本質(zhì)上是世界模型缺失的體現(xiàn)。與人類基于物理直覺預(yù)判行為后果不同,RoboCat僅建立“圖像-動(dòng)作”的統(tǒng)計(jì)關(guān)聯(lián),缺乏對(duì)“力-運(yùn)動(dòng)-形變”因果鏈的內(nèi)在表征。當(dāng)環(huán)境變量超出訓(xùn)練集分布時(shí)(如地面材質(zhì)由木質(zhì)變?yōu)榻饘伲,模型無(wú)法通過物理推理調(diào)整策略,導(dǎo)致跨場(chǎng)景泛化崩潰。
2)硬件適配的柔性瓶頸:本體特化與通用性的兩難
雖然RoboCat支持跨機(jī)械臂遷移,但其適配效率仍受限于本體動(dòng)力學(xué)特性差異。當(dāng)新硬件與訓(xùn)練集機(jī)械臂存在顯著動(dòng)力學(xué)差異時(shí),微調(diào)成本劇增。這些問題暴露了跨本體適配的“表面泛化”特性:模型可適應(yīng)外形相似、自由度相近的機(jī)械臂,但對(duì)動(dòng)力學(xué)特性迥異的系統(tǒng),仍需近乎重訓(xùn)級(jí)的深度調(diào)整。
3. 2023年7月:谷歌發(fā)布機(jī)器人VLA模型RT-2
2023年7月,谷歌DeepMind發(fā)布具身智能視覺-語(yǔ)言-動(dòng)作模型(VLA)RT-2(Robotics Transformer 2)。其核心設(shè)計(jì)是使用互聯(lián)網(wǎng)規(guī)模的網(wǎng)絡(luò)數(shù)據(jù)和機(jī)器人動(dòng)作軌跡數(shù)據(jù)對(duì)預(yù)訓(xùn)練好的視覺-語(yǔ)言模型(VLM)進(jìn)行聯(lián)合微調(diào)生成VLA模型。核心目標(biāo)是將VLM模型的知識(shí)遷移到機(jī)器人控制中,實(shí)現(xiàn)端到端的語(yǔ)義推理與動(dòng)作生成。
1)模型架構(gòu)
RT-2以預(yù)訓(xùn)練的視覺-語(yǔ)言模型為核心骨干,通過動(dòng)作 Token 化將機(jī)器人控制任務(wù)統(tǒng)一到自然語(yǔ)言生成框架中,形成端到端單一模型架構(gòu)。該模型分別以PaLI-X 和 PaLM-E 兩種VLM 架構(gòu)構(gòu)建了對(duì)應(yīng)的實(shí)例模型RT-2-PaLI-X 與 RT-2-PaLM-E 。
RT-2模型架構(gòu)
2)聯(lián)合微調(diào)(Co-Fine-Tune)
將機(jī)器人動(dòng)作數(shù)據(jù)(來(lái)自RT-1)與網(wǎng)絡(luò)數(shù)據(jù)混合,共同輸入模型進(jìn)行聯(lián)合微調(diào)。其中,網(wǎng)絡(luò)數(shù)據(jù)內(nèi)容包括視覺問答(VQA)、圖像描述、非結(jié)構(gòu)化圖文交織樣本等。機(jī)器人動(dòng)作數(shù)據(jù)為13臺(tái)機(jī)器人持續(xù)17個(gè)月采集的辦公環(huán)境中的廚房場(chǎng)景數(shù)據(jù)(與RT-1訓(xùn)練所使用的數(shù)據(jù)相同)。
在具體實(shí)現(xiàn)方案中,谷歌DeepMind通過提高機(jī)器人動(dòng)作數(shù)據(jù)集的采樣權(quán)重,以平衡每批次訓(xùn)練數(shù)據(jù)中機(jī)器人動(dòng)作數(shù)據(jù)與網(wǎng)絡(luò)數(shù)據(jù)的比例。
模型聯(lián)合微調(diào)的關(guān)鍵步驟在于建立模型現(xiàn)有詞匯表與離散動(dòng)作空間之間的映射關(guān)系。為此,需要預(yù)先保留256 個(gè)標(biāo)記(tokens)作為專用的動(dòng)作標(biāo)記。具體選擇哪些標(biāo)記作為動(dòng)作標(biāo)記,取決于所使用的視覺語(yǔ)言模型(VLM)的分詞方案:
PaLI-X:由于其分詞方案為每個(gè)不超過 1000 的整數(shù)分配了唯一的標(biāo)記,因此可直接將 action bins 映射到對(duì)應(yīng)的整數(shù)標(biāo)記上。
PaLM-E:該模型的分詞方案不包含數(shù)字的直接表示,因此需要覆蓋詞匯表中 256個(gè)使用頻率最低的標(biāo)記,將它們重新定義為動(dòng)作詞匯表。
DeepMind通過實(shí)驗(yàn)證明 —— 提升機(jī)器人性能的關(guān)鍵訓(xùn)練技巧在于:將機(jī)器人數(shù)據(jù)與原始網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行聯(lián)合微調(diào),而非僅對(duì)機(jī)器人數(shù)據(jù)實(shí)施簡(jiǎn)單微調(diào)。聯(lián)合微調(diào)能生成泛化能力更強(qiáng)的策略,因?yàn)樵诖诉^程中,策略同時(shí)接觸網(wǎng)絡(luò)規(guī)模數(shù)據(jù)的抽象視覺概念和微調(diào)過程中的低層級(jí)機(jī)器人動(dòng)作,而非僅局限于機(jī)器人動(dòng)作。
3)RT-2的局限性
本文闡述了如何通過結(jié)合視覺語(yǔ)言模型(VLM)預(yù)訓(xùn)練與機(jī)器人數(shù)據(jù)來(lái)訓(xùn)練視覺語(yǔ)言動(dòng)作(VLA)模型。
谷歌DeepMind提出了基于PaLM-E和PaLI-X的兩種VLA實(shí)現(xiàn)方案,分別命名為RT-2-PaLM-E和RT-2-PaLI-X。這些模型通過機(jī)器人軌跡數(shù)據(jù)進(jìn)行聯(lián)合微調(diào),以輸出表示為文本標(biāo)記的機(jī)器人動(dòng)作。
研究表明,該方法不僅能生成高性能的機(jī)器人策略,更重要的是其泛化能力顯著提升,并繼承了大規(guī)模網(wǎng)絡(luò)視覺- 語(yǔ)言預(yù)訓(xùn)練所賦予的涌現(xiàn)能力。
盡管RT-2展現(xiàn)出優(yōu)異的泛化性能,該方法仍存在多重局限。
1)局限一:可用的開源VLM模型少
目前僅有少量可用于創(chuàng)建RT-2 的通用視覺 - 語(yǔ)言模型(VLM),期待更多開源模型及開放專有模型的微調(diào)API——這是構(gòu)建VLA模型的必要條件。
2)局限二:動(dòng)作創(chuàng)新能力受限
VLM通過網(wǎng)絡(luò)規(guī)模預(yù)訓(xùn)練可提升語(yǔ)義與視覺概念的泛化能力,但機(jī)器人并未因包含這些額外經(jīng)驗(yàn)而獲得執(zhí)行新動(dòng)作的能力。
模型的物理技能仍局限于機(jī)器人數(shù)據(jù)中所見的技能分布,僅能創(chuàng)新性地組合已有技能。DeepMind認(rèn)為這源于數(shù)據(jù)集的技能多樣性不足所致。未來(lái)研究的關(guān)鍵方向是探索通過新數(shù)據(jù)收集范式(如人類操作視頻)獲取新技能。
3)局限三:實(shí)時(shí)推理瓶頸
盡管實(shí)現(xiàn)了大型VLA模型的實(shí)時(shí)運(yùn)行,但其計(jì)算成本仍高昂。若應(yīng)用于需高頻控制的場(chǎng)景,實(shí)時(shí)推理將成為主要瓶頸。未來(lái)研究需探索量化和蒸餾技術(shù),以提升模型速率或適配低成本硬件。
4. 2023年10月:谷歌發(fā)布機(jī)器人VLA模型RT-X
2023年10月,谷歌DeepMind發(fā)布了通用具身智能模型RT-X(含RT-1-X和RT-2-X),并開源其訓(xùn)練數(shù)據(jù)集Open X-Embodiment。
RT-X 模型并非指單一模型,而是一個(gè)項(xiàng)目/系列。在原有 RT-1 和 RT-2 的框架基礎(chǔ)上,使用大規(guī)?鐧C(jī)器人數(shù)據(jù)集 Open X-Embodiment 進(jìn)行訓(xùn)練(微調(diào)),從而得到了兩個(gè)系列的模型:RT-1-X 系列和 RT-2-X系列。
截至目前,Open X-Embodiment已整合 60個(gè)機(jī)器人數(shù)據(jù)集,覆蓋 311 種場(chǎng)景與 22 類不同類型的機(jī)器人平臺(tái)(含單臂/雙臂/四足機(jī)器人等),提供超100萬(wàn)條真實(shí)機(jī)器人運(yùn)動(dòng)軌跡,涵蓋 527 項(xiàng)技能及 160,266 項(xiàng)任務(wù)。
Open X-Embodiment 開源數(shù)據(jù)集
1)RT-X模型訓(xùn)練使用數(shù)據(jù)集
據(jù)了解,在當(dāng)時(shí)訓(xùn)練RT-1-X 和 RT-2-X 時(shí),所使用的數(shù)據(jù)并非如今 Open X-Embodiment 數(shù)據(jù)集的全部?jī)?nèi)容。其數(shù)據(jù)僅涵蓋 22 個(gè)機(jī)械臂中的 9 個(gè),以及 60 組子數(shù)據(jù)集中的 12 組,總計(jì) 1,131,788 條數(shù)據(jù)。由于該數(shù)據(jù)集處于持續(xù)增長(zhǎng)狀態(tài),在開展 RT-X 相關(guān)實(shí)驗(yàn)時(shí),這 12 組數(shù)據(jù)便是當(dāng)時(shí)數(shù)據(jù)集的全部?jī)?nèi)容。
這12組數(shù)據(jù)集包括:RT-1、QT-Opt、Bridge、Task Agnostic Robot Play、Jaco Play、Cable Routing、RoboTurk、NYU VINN、Austin VIOLA、Berkeley Autolab UR5、TOTO和Language Table。
其中,RT-1-X僅使用上述機(jī)器人數(shù)據(jù)(9類機(jī)械臂的12組數(shù)據(jù)集)進(jìn)行訓(xùn)練;RT-2-X采用與原 RT-2類似的聯(lián)合微調(diào)策略,以約 1:1 比例混合經(jīng)任務(wù)篩選的VLM數(shù)據(jù)與機(jī)器人數(shù)據(jù)。
2)RT-X模型架構(gòu)
RT-1-X 和 RT-2-X 均以圖像和文本指令作為輸入,并輸出離散化的末端執(zhí)行器動(dòng)作。RT-1-X 是一個(gè)專為機(jī)器人設(shè)計(jì)的架構(gòu),包含一個(gè) FiLM 條件化的 EfficientNet和一個(gè) Transformer。RT-2-X 構(gòu)建在一個(gè)視覺語(yǔ)言模型(VLM)主干之上,其方法是將動(dòng)作表征為另一種語(yǔ)言,并將動(dòng)作文本標(biāo)記與視覺語(yǔ)言數(shù)據(jù)一起進(jìn)行訓(xùn)練。
RT-X模型訓(xùn)練過程
2024年:谷歌具身智能基礎(chǔ)模型關(guān)鍵布局
1. 2024年3月,谷歌推出具身智能模型RT-H
2024年3月,谷歌DeepMind正式推出端到端的框架RT-H。它是一個(gè)帶動(dòng)作分層結(jié)構(gòu)的機(jī)器人Transformer —— 將語(yǔ)言化動(dòng)作作為高級(jí)任務(wù)描述與低級(jí)動(dòng)作之間的中間預(yù)測(cè)層,從而通過語(yǔ)言化動(dòng)作構(gòu)建動(dòng)作分層結(jié)構(gòu)。
在上圖中,當(dāng)給定“蓋上開心果罐” 這類語(yǔ)言描述的任務(wù)以及場(chǎng)景圖像后,RT-H 會(huì)利用視覺語(yǔ)言模型(VLM)預(yù)測(cè) “向前移動(dòng)手臂”、“向右旋轉(zhuǎn)手臂” 等語(yǔ)言化動(dòng)作;然后,再根據(jù)這些語(yǔ)言化動(dòng)作,為機(jī)器人預(yù)測(cè)具體執(zhí)行動(dòng)作(Robot Action)。
這種動(dòng)作分層結(jié)構(gòu)能讓模型學(xué)習(xí)到那些語(yǔ)言描述差異顯著但存在共享結(jié)構(gòu)的任務(wù)。與RT-2哪些直接從任務(wù)映射到動(dòng)作的方式相比,這些語(yǔ)言化動(dòng)作有助于在多樣化的多任務(wù)數(shù)據(jù)集之間實(shí)現(xiàn)更好的數(shù)據(jù)共享。
此外,該分層結(jié)構(gòu)還允許人類選擇性地向機(jī)器人提供語(yǔ)言化動(dòng)作修正,以避免任務(wù)失敗,隨后利用這些新的語(yǔ)言化動(dòng)作預(yù)測(cè)更優(yōu)的動(dòng)作。當(dāng)人類完成干預(yù)后,RT-H 會(huì)像之前一樣繼續(xù)預(yù)測(cè)語(yǔ)言化動(dòng)作。
然而,當(dāng)任務(wù)在語(yǔ)義上變得更加多樣時(shí)(例如“拿起可樂罐” 和 “倒杯子里的東西”),任務(wù)間的數(shù)據(jù)共享就會(huì)變得更加困難,因此學(xué)習(xí)從高級(jí)任務(wù)到具體動(dòng)作指令的映射需要大量的演示數(shù)據(jù)。
為了彌合任務(wù)與動(dòng)作之間的這一鴻溝,DeepMind的解法是賦予機(jī)器人『動(dòng)作語(yǔ)義化』能力——使用原子級(jí)動(dòng)作短語(yǔ)(如“前移機(jī)械臂”或“閉合夾爪”)描述底層運(yùn)動(dòng)。將語(yǔ)言化動(dòng)作預(yù)測(cè)作為高層任務(wù)與底層執(zhí)行間的中間步驟,倒逼策略模型學(xué)習(xí)表面異構(gòu)任務(wù)間共享的底層運(yùn)動(dòng)結(jié)構(gòu)。更重要的是,基于語(yǔ)言化動(dòng)作條件生成的策略,可在執(zhí)行過程中通過人類指定的語(yǔ)義指令實(shí)時(shí)修正。
1)RT-H:利用語(yǔ)言構(gòu)建動(dòng)作分層結(jié)構(gòu)
RT-H的推理流程包含兩個(gè)關(guān)鍵階段:
1)首先,RT-H 根據(jù)視覺觀察結(jié)果和高級(jí)任務(wù)描述,預(yù)測(cè)當(dāng)前的語(yǔ)言化動(dòng)作(語(yǔ)言化動(dòng)作指令請(qǐng)求),使模型能在細(xì)粒度層面推理任務(wù)執(zhí)行方式;
2)然后,RT-H聯(lián)合視覺觀察、任務(wù)描述及推斷出的語(yǔ)言化動(dòng)作預(yù)測(cè)當(dāng)前的具體執(zhí)行動(dòng)作(機(jī)器人動(dòng)作指令請(qǐng)求),其中語(yǔ)言化動(dòng)作為精確動(dòng)作預(yù)測(cè)提供了關(guān)鍵上下文補(bǔ)充。
RT-H是以視覺語(yǔ)言模型(VLM)作為主干網(wǎng)絡(luò),并遵循 RT-2的訓(xùn)練流程來(lái)實(shí)現(xiàn)。與RT-2 類似,通過互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)的訓(xùn)練,模型可調(diào)用自然語(yǔ)言處理與圖像理解領(lǐng)域的海量先驗(yàn)知識(shí)。
為了將這些先驗(yàn)知識(shí)融入動(dòng)作層級(jí)結(jié)構(gòu)的各個(gè)層級(jí),RT-H 使用單一的視覺語(yǔ)言模型(VLM)同時(shí)學(xué)習(xí)語(yǔ)言動(dòng)作指令請(qǐng)求(Language Motion Query)和機(jī)器人動(dòng)作指令請(qǐng)求(Action Query)。
RT-H的推理流程
圖左側(cè):
RT-H利用語(yǔ)言構(gòu)建分層策略學(xué)習(xí)架構(gòu):將動(dòng)作預(yù)測(cè)拆分為語(yǔ)言化動(dòng)作指令請(qǐng)求(π)與機(jī)器人動(dòng)作指令請(qǐng)求(π)。其中:
π:基于圖像令牌( Image Tokens)和任務(wù)描述令牌(Task Tokens)預(yù)測(cè)細(xì)粒度語(yǔ)言化動(dòng)作(如“向前移動(dòng)手臂”);
π:結(jié)合場(chǎng)景視覺上下文,將該語(yǔ)言化動(dòng)作解碼為具體的機(jī)器人動(dòng)作指令。
圖右側(cè):
用戶可直接對(duì)機(jī)器人動(dòng)作指令請(qǐng)求進(jìn)行干預(yù),為機(jī)器人行為提供語(yǔ)言化動(dòng)作修正,例如此處將“向前移動(dòng)手臂” 改為 “向左移動(dòng)手臂”。為了從修正中學(xué)習(xí),只需用新標(biāo)注的語(yǔ)言化動(dòng)作修正更新語(yǔ)言動(dòng)作指令請(qǐng)求。隨后,將更新后的模型重新部署到動(dòng)作層級(jí)結(jié)構(gòu)中。
RT-H通過端到端的方式學(xué)習(xí)預(yù)測(cè)語(yǔ)言化動(dòng)作指令和機(jī)器人動(dòng)作指令,不僅能夠在語(yǔ)言化動(dòng)作空間中進(jìn)行修正,還能從這些修正中高效學(xué)習(xí)。
當(dāng)所學(xué)策略難以順利執(zhí)行任務(wù)時(shí),語(yǔ)言化動(dòng)作能再次發(fā)揮作用:它們?yōu)樵诰人類修正提供了一個(gè)直觀的交互界面,且這種修正與特定場(chǎng)景相關(guān)聯(lián)。通過語(yǔ)言化動(dòng)作訓(xùn)練的策略,能夠自然地遵循人類的低級(jí)修正指令,并借助修正數(shù)據(jù)成功完成任務(wù)。此外,該策略甚至可以在語(yǔ)言修正數(shù)據(jù)上進(jìn)行訓(xùn)練,從而進(jìn)一步提升自身性能。
a. RT-H模型訓(xùn)練
RT-H采用基于互聯(lián)網(wǎng)多模態(tài)數(shù)據(jù)聯(lián)合預(yù)訓(xùn)練的單一視覺語(yǔ)言模型(VLM),學(xué)習(xí)高層任務(wù)策略π與底層機(jī)器人控制策略π。
RT-H采用與RT-2相同的PaLI-X 55B架構(gòu)實(shí)例化視覺語(yǔ)言模型(VLM)。該模型通過ViT編碼器將圖像處理為圖像令牌(Image Tokens),再由編碼器-解碼器Transformer聯(lián)合處理這些圖像令牌與自然語(yǔ)言指令令牌,輸出離散動(dòng)作令牌(Action Tokens)。
這些動(dòng)作令牌的生成方式沿襲RT-2的離散化機(jī)制:將每個(gè)動(dòng)作維度離散化為256個(gè)區(qū)間(bins),并將區(qū)間編碼為整數(shù)值。每個(gè)動(dòng)作包含末端執(zhí)行器的位置/軸角旋轉(zhuǎn)變化量、夾爪開合動(dòng)作指令以及任務(wù)終止標(biāo)志。
隨后,RT-H 使用與 RT-2 相同的 PaLI-X 訓(xùn)練混合數(shù)據(jù)進(jìn)行聯(lián)合訓(xùn)練,并從預(yù)訓(xùn)練檢查點(diǎn)開始。在該聯(lián)合訓(xùn)練過程中,視覺 Transformer(ViT)編碼器被凍結(jié)。RT-H 以相同的采樣率,用語(yǔ)言化動(dòng)作指令請(qǐng)求和機(jī)器人動(dòng)作指令請(qǐng)求替代了 RT-2 中的機(jī)器人動(dòng)作指令請(qǐng)求。使用單一模型簡(jiǎn)化了訓(xùn)練過程,并使語(yǔ)言化動(dòng)作指令請(qǐng)求和機(jī)器人動(dòng)作指令請(qǐng)求都能從 PaLI-X 訓(xùn)練混合數(shù)據(jù)中蘊(yùn)含的廣泛先驗(yàn)知識(shí)中獲益。
b. 語(yǔ)言化動(dòng)作的提取
為了低成本地提取每個(gè)片段中的每個(gè)時(shí)間步的可靠語(yǔ)言化動(dòng)作,DeepMind開發(fā)了一種依賴機(jī)器人本體感知信息的自動(dòng)標(biāo)注方案。
首先,將機(jī)器人末端執(zhí)行器位姿變化的每個(gè)維度與空間維度相關(guān)聯(lián)(例如,位置變化的z軸對(duì)應(yīng)上下方向)。針對(duì)所有 9 個(gè)動(dòng)作維度(3 個(gè)位置增量維度、3 個(gè)姿態(tài)增量維度、2 個(gè)基座移動(dòng)維度、1 個(gè)夾爪維度)執(zhí)行此操作后,就能確定機(jī)器人當(dāng)前的主要空間運(yùn)動(dòng)列表,例如 “手臂向上并向右移動(dòng)”“閉合夾爪”“手臂逆時(shí)針旋轉(zhuǎn)” 或 “基座向左轉(zhuǎn)動(dòng)”。之后,可以過濾掉低于選定 “小動(dòng)作” 閾值的維度,再按照動(dòng)作幅度的順序組合得到的動(dòng)作。
例如,如果機(jī)器人主要是向前移動(dòng)手臂,同時(shí)開始閉合夾爪,研究人員會(huì)提取出“向前移動(dòng)手臂并閉合夾爪” 這一語(yǔ)言化動(dòng)作。通過這種方式,語(yǔ)言的組合性使得從一組簡(jiǎn)單的已知?jiǎng)幼髦心軌蛱崛〕龀^ 2500 種語(yǔ)言化動(dòng)作。
此外,由于這些語(yǔ)言化動(dòng)作直接源于動(dòng)作本身,因此在RT-H 中運(yùn)行動(dòng)作指令請(qǐng)求時(shí),它們對(duì)動(dòng)作本身具有很強(qiáng)的預(yù)測(cè)能力。
然而,語(yǔ)言化動(dòng)作在抽象層級(jí)的選擇上存在基本權(quán)衡的問題:語(yǔ)言化動(dòng)作的顆粒度越細(xì),語(yǔ)言化動(dòng)作指令請(qǐng)求的預(yù)測(cè)難度越高,但對(duì)機(jī)器人動(dòng)作指令請(qǐng)求的指導(dǎo)性越強(qiáng);反之亦然。
2)RT-H:推理與修正
在測(cè)試階段,RT-H首先運(yùn)行語(yǔ)言化動(dòng)作指令請(qǐng)求(π)以推導(dǎo)語(yǔ)言化動(dòng)作序列,隨后將該序列輸入機(jī)器人動(dòng)作指令請(qǐng)求(π)生成具體的執(zhí)行動(dòng)作參數(shù)。
然而,由于兩個(gè)指令請(qǐng)求需在每一步時(shí)序中串行執(zhí)行,該過程使推理耗時(shí)翻倍。雖對(duì)小規(guī)模模型影響甚微,但對(duì)于RT-H中使用的55B參數(shù)的大型模型而言,必將引發(fā)不可避免的請(qǐng)求處理延遲問題。
為應(yīng)對(duì)這一挑戰(zhàn),谷歌DeepMind提出兩種語(yǔ)言化動(dòng)作推理模式:
a. 異步查詢:僅訓(xùn)練RT-H中的語(yǔ)言化動(dòng)作指令請(qǐng)求(π)預(yù)測(cè)未來(lái)一步動(dòng)作。測(cè)試時(shí),利用上一時(shí)間步推導(dǎo)的語(yǔ)言化動(dòng)作執(zhí)行當(dāng)前機(jī)器人動(dòng)作指令請(qǐng)求,同時(shí)并行預(yù)測(cè)下一時(shí)間步的語(yǔ)言化動(dòng)作。此方案通過批處理查詢實(shí)現(xiàn)與RT-2近乎同等的請(qǐng)求延遲。
b. 固定頻率:每H步執(zhí)行一次語(yǔ)言化動(dòng)作指令請(qǐng)求,分?jǐn)傃舆t壓力。
在實(shí)驗(yàn)中,DeepMind選擇異步查詢方案,因語(yǔ)言化動(dòng)作常需在精確時(shí)間步變更,無(wú)法適配固定頻率帶來(lái)的約束。
2025年:谷歌具身智能基礎(chǔ)模型關(guān)鍵布局
1. 2025年3月:谷歌發(fā)布具身智能大模型Gemini Robotics
2025年3月12日,谷歌Deep Mind發(fā)布了基于多模態(tài)通用大模型Gemini2.0構(gòu)建的兩類大模型:Gemini Robotics(VLA)和Gemini Robotics-ER(VLM)。
1) Gemini Robotics-ER
Gemini Robotics - ER(VLM模型),其中ER 代表 “embodied reasoning”(具身推理),將Gemini的多模態(tài)推理能力擴(kuò)展至物理世界,具備增強(qiáng)的空間和時(shí)間理解能力,包括物體檢測(cè)、指向、軌跡預(yù)測(cè)和抓取預(yù)測(cè)等2D空間概念理解能力,以及多視角3D場(chǎng)景理解和3D邊界框檢測(cè)等3D空間推理能力。
多視角3D場(chǎng)景理解: 通過關(guān)聯(lián)不同視角的2D點(diǎn)來(lái)理解3D場(chǎng)景
a. 支持零樣本和少樣本機(jī)器人控制
在實(shí)驗(yàn)中,研究人員使用Gemini 2.0 Flash和Gemini Robotics-ER兩類模型,分別采用兩種不同的機(jī)器人控制方法進(jìn)行實(shí)驗(yàn)。
零樣本(zero-shot)機(jī)器人控制——通過代碼生成控制機(jī)器人。
少樣本(few-shot)控制——通過上下文學(xué)習(xí)(in-context learning, ICL),基于少量示例適應(yīng)新行為。
兩類模型在模擬環(huán)境中執(zhí)行一組操作任務(wù)的結(jié)果對(duì)比
備注:這些任務(wù)涵蓋了不同難度和物體類型,從簡(jiǎn)單的抓取任務(wù)(如抬起香蕉)到長(zhǎng)時(shí)序、多步驟、多任務(wù)的操作(如將玩具放入盒子并關(guān)閉盒子)。
試驗(yàn)結(jié)果表明,Gemini Robotics-ER 在兩種控制方式下的任務(wù)完成率均表現(xiàn)良好。Gemini Robotics-ER能夠利用上下文學(xué)習(xí)(in-context learning),僅憑少量示例就能提高更復(fù)雜的靈巧雙臂任務(wù)(如折疊衣物)的執(zhí)行能力,并能夠直接輸出末端執(zhí)行器的軌跡以完成任務(wù)。
在零樣本機(jī)器人控制方面,Gemini Robotics-ER任務(wù)完成率相比Gemini 2.0 提高了近2倍。
在少樣本機(jī)器人控制方面,Gemini 2.0 Flash 在模擬環(huán)境中平均成功率達(dá)到51%。然而,Gemini Robotics-ER 在模擬環(huán)境中的平均成功率達(dá)到 65%。
另外,實(shí)驗(yàn)還表明,模型的具身推理能力與下游機(jī)器人控制的性能之間存在強(qiáng)相關(guān)性。Gemini Robotics-ER 可以直接用于機(jī)器人控制,包括:作為感知模塊(如物體檢測(cè)),規(guī)劃模塊(如軌跡生成)以及通過生成和執(zhí)行代碼來(lái)協(xié)調(diào)機(jī)器人運(yùn)動(dòng)。
不過,Gemini Robotics-ER作為VLM模型,也存在局限性,尤其是在更復(fù)雜的靈巧操作任務(wù)上。這主要是因?yàn)樾枰~外的中間步驟來(lái)將模型的具身推理能力與機(jī)器人執(zhí)行動(dòng)作關(guān)聯(lián)起來(lái)。
2)Gemini Robotics
Gemini Robotics是一種端到端的VLA(視覺-語(yǔ)言-行動(dòng))模型,將強(qiáng)大的具身推理先驗(yàn)與現(xiàn)實(shí)世界機(jī)器人的靈巧低級(jí)控制相結(jié)合,能夠在不同環(huán)境下解決靈巧任務(wù),并支持不同的機(jī)器人形態(tài)。
Gemini Robotics是Gemini Robotics-ER的一個(gè)衍生版本,采用了雙組件架構(gòu):
Gemini Robotics 主干網(wǎng)絡(luò):托管在云端,負(fù)責(zé)視覺-語(yǔ)言推理。
Gemini Robotics 解碼器:運(yùn)行在機(jī)器人控制器上,負(fù)責(zé)動(dòng)作執(zhí)行。
Gemini Robotics 主干網(wǎng)絡(luò)由Gemini Robotics-ER的一個(gè)蒸餾版本(distilled version)組成,其查詢-響應(yīng)延遲已優(yōu)化至小于160ms(相比原始模型減少了數(shù)秒)。為了補(bǔ)償主干網(wǎng)絡(luò)的延遲,Gemini Robotics解碼器在本地執(zhí)行低級(jí)控制。
Gemini Robotics模型架構(gòu)概覽
3)Gemini Robotics 的優(yōu)勢(shì)
Gemini Robotics模型在精細(xì)的柔性布料操作、鉸接物體精準(zhǔn)操控等多樣化任務(wù)中展現(xiàn)突出能力。研究人員把該模型能力突出的原因歸結(jié)于:
強(qiáng)大的視覺語(yǔ)言模型,具備增強(qiáng)的具身推理能力;
針對(duì)機(jī)器人任務(wù),采用大規(guī)模機(jī)器人動(dòng)作數(shù)據(jù)與多樣化的非機(jī)器人數(shù)據(jù)的特定訓(xùn)練方案;
專為低延遲機(jī)器人控制設(shè)計(jì)的獨(dú)特架構(gòu)。
Gemini Robotics模型的關(guān)鍵優(yōu)勢(shì)在于:成功繼承Gemini Robotics-ER的具身推理特性,能高效遵循開放詞匯指令,并展現(xiàn)強(qiáng)大的零樣本泛化能力。通過微調(diào)實(shí)現(xiàn)專項(xiàng)適應(yīng),該模型在新任務(wù)/新實(shí)體形態(tài)中達(dá)成較高操作精度,并在挑戰(zhàn)性場(chǎng)景中保持泛化能力。
2. 2025年6月:谷歌發(fā)布設(shè)備端具身智能模型Gemini Robotics On-Device
2025年6月,谷歌DeepMind正式發(fā)布機(jī)器人模型Gemini Robotics On-Device。它是視覺-語(yǔ)言-動(dòng)作(VLA)模型 Gemini Robotics 的輕量化版本。該模型重點(diǎn)解決在設(shè)備端部署的問題。
據(jù)悉,Gemini Robotics On-Device是首個(gè)支持本地微調(diào)的具身智能VLA模型。模型經(jīng)過計(jì)算資源壓縮,可在 Franka FR3 機(jī)械臂、Apollo 人形機(jī)器人等邊緣設(shè)備上實(shí)現(xiàn)低延遲推理(<100ms),并支持全鏈路離線運(yùn)行。
在任務(wù)泛化能力方面,在Visual Gen(視覺泛化)、Semantic Gen(語(yǔ)義泛化)、Action Gen(動(dòng)作泛化) 三項(xiàng)核心測(cè)試中,該模型得分均接近旗艦版模型Gemini Robotics,且超越此前最佳設(shè)備端模型,尤其在處理未見過的物體(如異形拉鏈袋)和復(fù)雜多步驟指令(如 “拉開袋子→取出物品→折疊衣物”)時(shí)表現(xiàn)突出。
模型的任務(wù)泛化能力比較
同時(shí),谷歌還推出Gemini Robotics SDK,提供MuJoCo 物理模擬器集成、示范數(shù)據(jù)標(biāo)注工具及模型微調(diào)接口,幫助開發(fā)者評(píng)估Gemini Robotics 在設(shè)備上的性能。開發(fā)者可通過 50-100 次真實(shí)操作演示完成模型適配。這一數(shù)據(jù)量顯著低于傳統(tǒng)強(qiáng)化學(xué)習(xí)方法(通常需數(shù)千次迭代),體現(xiàn)了該模型的高效遷移學(xué)習(xí)能力。
Gemini Robotics On-Device的推出,是對(duì)機(jī)器人開發(fā)范式的革新。
Gemini Robotics On-Device 實(shí)現(xiàn)了端到端本地化運(yùn)行,解決網(wǎng)絡(luò)中斷場(chǎng)景的可靠性問題,對(duì)工業(yè)巡檢、應(yīng)急救援等關(guān)鍵領(lǐng)域具有戰(zhàn)略意義。
該模型通過高效的微調(diào)能力,顯著降低跨平臺(tái)適配成本,可擴(kuò)展至Apollo人形機(jī)器人與Franka FR3機(jī)械臂等不同形態(tài)。
結(jié)語(yǔ)
具身智能的核心是讓AI 從 “數(shù)字世界” 走向 “物理世界”,而物理推理能力是其關(guān)鍵瓶頸 —— 即模型能否讓機(jī)器人像人類一樣理解物體的物理屬性(重量、硬度、彈性)、空間關(guān)系(距離、遮擋、方位)、因果邏輯(推、拉、碰撞的后果)等。
“物理推理能力” 的核心主體是具身智能大模型,機(jī)器人是這一能力的 “物理執(zhí)行者”。谷歌在具身智能基礎(chǔ)模型領(lǐng)域布局的本質(zhì)是通過大模型突破物理推理的技術(shù)壁壘,再借助跨平臺(tái)動(dòng)作泛化框架與端云協(xié)同部署,實(shí)現(xiàn)機(jī)器人在現(xiàn)實(shí)應(yīng)用場(chǎng)景中的可靠落地。
當(dāng)前,谷歌在正以「通用智能模型賦能者 + 跨場(chǎng)景生態(tài)協(xié)同者」的定位重塑行業(yè)技術(shù)范式。其通過 RT 系列與 Gemini Robotics 大模型構(gòu)建核心智能引擎,結(jié)合 Open X-Embodiment 開源數(shù)據(jù)集與 Gemini Robotics SDK 開發(fā)工具,形成從模型研發(fā)到應(yīng)用落地的全鏈條支撐體系,通過技術(shù)迭代與生態(tài)聯(lián)動(dòng)構(gòu)建具身智能護(hù)城河。
未來(lái),隨著具身智能基礎(chǔ)模型物理推理能力的持續(xù)提升,谷歌有望成為具身智能時(shí)代“物理世界語(yǔ)言” 的標(biāo)準(zhǔn)制定者。
原文標(biāo)題 : 2022~2025:2萬(wàn)字講清谷歌在具身智能基礎(chǔ)模型領(lǐng)域的關(guān)鍵布局

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會(huì)2025(第六屆)機(jī)器人及智能工廠展
-
免費(fèi)參會(huì)立即報(bào)名>> 7月30日- 8月1日 2025全數(shù)會(huì)工業(yè)芯片與傳感儀表展
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書》
-
8月5日立即報(bào)名>> 【在線會(huì)議】CAE優(yōu)化設(shè)計(jì):醫(yī)療器械設(shè)計(jì)的應(yīng)用案例與方案解析
-
8月14日立即報(bào)名>> 【在線研討會(huì)】解析安森美(onsemi)高精度與超低功耗CGM系統(tǒng)解決方案
-
精彩回顧立即查看>> OFweek 2025 具身機(jī)器人動(dòng)力電池技術(shù)應(yīng)用大會(huì)
推薦專題
- 1 AI產(chǎn)業(yè)的新高度!英偉達(dá)成為全球首家市值破4萬(wàn)億美元的公司
- 2 傳魏建軍與賈躍亭合作,長(zhǎng)城汽車出海美國(guó)
- 3 一文讀懂:到底什么是 “具身智能” ?
- 4 黃仁勛:與雷軍長(zhǎng)期合作,共探AI智駕
- 5 具身智能泡沫爭(zhēng)議下,華映資本尋找「穿越周期者」
- 6 中國(guó)平安們欲靠AI守“陣地”
- 7 官宣:智元機(jī)器人借殼上市,A股人形機(jī)器人第一股!
- 8 華為讓渡“三界”銷售主導(dǎo)權(quán),智界高管:終于能全力奔跑了
- 9 借仿生手實(shí)現(xiàn)突圍,國(guó)產(chǎn)靈巧手破局“不可能三角”
- 10 DeepSeek R2加持,中國(guó)AI與芯片產(chǎn)業(yè)迎來(lái)新一輪協(xié)同進(jìn)化