訂閱
糾錯
加入自媒體

具身智能VLA困于“數(shù)據(jù)泥潭”,靠人類活動視頻數(shù)據(jù)能否破局?

前言

盡管當前的視覺-語言-動作(VLA)模型已展現(xiàn)出顯著進展,但其在新場景和與復(fù)雜物體交互中的性能會顯著下降,在遵循指令方面落后于像LLaVA 這樣的大型多模態(tài)模型(LMM)。

這種局限性源于現(xiàn)有VLA模型對存在固有仿真到現(xiàn)實差距(Sim-to-Real Gap)的合成數(shù)據(jù)或缺乏多樣性的有限規(guī)模的實驗室遙操作演示數(shù)據(jù)的依賴,導(dǎo)致其難以勝任高靈巧度操作任務(wù),且在新場景中泛化能力有限。

1)合成數(shù)據(jù):雖有研究者們嘗試利用仿真器獲取低成本合成數(shù)據(jù),但其有限多樣性與未解決的仿真-現(xiàn)實差異,仍阻礙著靈巧手的實際部署。

2)遙操作數(shù)據(jù):該類數(shù)據(jù)的規(guī)模與互聯(lián)網(wǎng)級別的大型多模態(tài)模型(LMMs)訓(xùn)練數(shù)據(jù)相比,存在數(shù)個數(shù)量級的差距,這使得具身智能陷入了持續(xù)的 “數(shù)據(jù)泥潭”。對于靈巧手而言,這種數(shù)據(jù)稀缺問題尤為突出 —— 由于操作復(fù)雜性和硬件成本的限制,迫使大多數(shù)VLA模型只能局限于適配簡易夾爪。然而,這些末端執(zhí)行器自由度有限,無法實現(xiàn)精細的手指控制,因此無法完成復(fù)雜交互所需的精確協(xié)調(diào)或微妙的力調(diào)節(jié)。

具身智能面臨的數(shù)據(jù)難題該如何突破呢?由北京大學(xué)、中國人民大學(xué)以及北京智在無界科技有限公司(BeingByond)聯(lián)合發(fā)表的論文《Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos》提出了值得參考和借鑒的思路。

論文指出:為突破數(shù)據(jù)瓶頸,人類活動視頻為VLA訓(xùn)練提供新路徑 —— 具備海量真實世界數(shù)據(jù)且與現(xiàn)實差異極小。盡管已有研究采用隱式學(xué)習(xí)方法(如對比學(xué)習(xí)、掩碼自編碼、潛動作建模)增強機器人技能,但這些方法的學(xué)習(xí)機制與遷移效果仍不明確。

值得注意的是,此類方法未能復(fù)現(xiàn)LLM/LMM領(lǐng)域的性能躍升,例如視覺指令微調(diào)在LLM/LMM領(lǐng)域展現(xiàn)的突破性效果。這種差距可能源于數(shù)據(jù)結(jié)構(gòu)的根本差異 —— 在大型語言模型和大型多模態(tài)模型中,預(yù)訓(xùn)練數(shù)據(jù)與下游訓(xùn)練數(shù)據(jù)具有同構(gòu)性,因此文本推理與語言任務(wù)能無縫適配,視覺-文本理解能力也能自然遷移至多模態(tài)任務(wù)。

相比之下,在VLA中卻呈現(xiàn)出異構(gòu)性—— 文本/二維視覺輸入與具有本體感知需求的三維動作空間之間存在顯著差距。

因此,研究人員分析了視覺指令調(diào)優(yōu)的成功因素,并提出了物理指令調(diào)優(yōu)這一新范式來訓(xùn)練了靈巧視覺-語言-動作模型——Being-H0。

該模型將人手確立為下游操作的通用基準(也就是說,將人手作為“基礎(chǔ)操控器”),使機器人能從網(wǎng)絡(luò)視頻學(xué)習(xí)多樣化技能。據(jù)悉,這是首次通過大規(guī)模人類視頻的顯式動作建模,預(yù)訓(xùn)練可擴展、強泛化能力的VLA模型。

如下圖所示,物理指令調(diào)優(yōu)范式包含三個關(guān)鍵組成部分:人類視頻驅(qū)動的VLA預(yù)訓(xùn)練、面向三維推理的物理空間對齊以及針對機器人任務(wù)的后訓(xùn)練適配。

Being-H0模型物理指令調(diào)優(yōu)的三個關(guān)鍵組成部分

備注:文本分詞器(text tokenizer)和視覺編碼器(visual encoder)在預(yù)訓(xùn)練和后訓(xùn)練階段是共享的。對于預(yù)訓(xùn)練以及手部運動/ 平移任務(wù),Being-H0 以自回歸方式生成輸出。對于后訓(xùn)練以及下游操作任務(wù),Being-H0 引入了一組可學(xué)習(xí)的查詢向量作為動作塊進行預(yù)測。

同時,本論文還提出部件級動作Token化技術(shù),通過毫米級重建精度建模精準手部軌跡。另外,為支撐此框架,研究人員構(gòu)建了統(tǒng)一數(shù)據(jù)整備管線,整合了涵蓋動作捕捉數(shù)據(jù)、VR交互記錄、純RGB視頻在內(nèi)的數(shù)據(jù),形成包含數(shù)百萬動作驅(qū)動型指令實例的大規(guī)模數(shù)據(jù)集 - UniHand。

一、物理指令調(diào)優(yōu)的三個關(guān)鍵組成部分

Being-H0模型物理指令調(diào)優(yōu)過程

通過統(tǒng)一物理指令微調(diào),搭建起了人類視頻數(shù)據(jù)集與機器人操作之間的橋梁。

1)圖左側(cè):部件級運動Token化 —— 將連續(xù)的手部運動轉(zhuǎn)換為離散Token。物理空間對齊通過坐標系對齊和MANO參數(shù)化,統(tǒng)一異構(gòu)數(shù)據(jù)源 —— 從視頻中的人類手部演示(數(shù)據(jù)集)到真實機器人數(shù)據(jù),為預(yù)訓(xùn)練和后訓(xùn)練監(jiān)督創(chuàng)建一致的表征。

2)圖中間:在預(yù)訓(xùn)練階段—— 將視覺-文本參數(shù) Θv,t 擴展以納入運動參數(shù)Θm,使統(tǒng)一序列內(nèi)的視覺、文本和運動Token能夠?qū)崿F(xiàn)多頭注意力交互。用藍色表示視覺和文本注意力,紅色表示運動注意力,黃色表示跨模態(tài)注意力。

3)圖右側(cè):擴展階段展示了注意力機制如何適配預(yù)訓(xùn)練的跨模態(tài)依賴關(guān)系(Attnv,t|m),隨后是后訓(xùn)練階段,其中納入動作參數(shù)Θa,生成具有參數(shù)Θa,v,t|m的最終VLA模型,用于下游機器人任務(wù)。綠色部分表示動作注意力。

1. 預(yù)訓(xùn)練

現(xiàn)有的大型多模態(tài)模型(LMMs)在多模態(tài)推理方面表現(xiàn)出色,但在適配為用于操作任務(wù)的視覺-語言-動作模型(VLAs)時表現(xiàn)欠佳。原因在于預(yù)訓(xùn)練數(shù)據(jù)與下游任務(wù)數(shù)據(jù)之間存在根本性不匹配。

為彌合這一差距,研究人員利用人類與機器人操作器在結(jié)構(gòu)上的相似性,引入了手部運動生成預(yù)訓(xùn)練。該預(yù)訓(xùn)練方法是將人手視為理想的操作器,而機器人操作器則被視作人手的簡化版本。

預(yù)訓(xùn)練使用一個多模態(tài)數(shù)據(jù)集:D = {(v, t, m)}來訓(xùn)練基礎(chǔ)VLA,使其能夠根據(jù)視覺輸入和語言指令預(yù)測手部運動。

其中v 代表視覺輸入, t 代表語言指令, m = {θ, rrot, τ, β} 代表基于 MANO 模型參數(shù)化的運動數(shù)據(jù)(包括關(guān)節(jié)角度 θ, 手腕旋轉(zhuǎn) rrot, 平移 τ, 和手部形狀 β)。每個樣本都被視為一個指令-執(zhí)行對{XQ, XA},并通過以下優(yōu)化目標進行訓(xùn)練:

其中Θ 表示基礎(chǔ)模型,XA = {y} 包含來自文本和運動模態(tài)的目標詞元。該統(tǒng)一框架支持靈活的任務(wù)定義,包括:視覺到動作生成、動作描述生成以及面向多樣化手-物交互場景的多模態(tài)條件生成。

1)模型架構(gòu)

Being-H0 基于預(yù)訓(xùn)練的大型多模態(tài)模型(LMM)構(gòu)建,采用 InternVL3 架構(gòu) 。主干網(wǎng)絡(luò)包含兩大部分:一個是基于預(yù)訓(xùn)練的 InternViT-300M 作為視覺編碼器,以及一個2層的多層感知器(MLP)作為投影器。在每個時間步,模型會處理圖像-文本對輸入,以預(yù)測手部運動序列。

采用動態(tài)高分辨率策略,將輸入圖像分割為多個圖像塊,同時保持寬高比以最大限度減少失真,從而保留精細的視覺細節(jié)。

另外,將手部運動視為一種“外語”,以促進其與大型多模態(tài)模型的無縫整合。在預(yù)訓(xùn)練階段,手部運動Token生成器會將連續(xù)的運動特征量化為離散嵌入。為將運動Token整合到大型多模態(tài)模型主干中,通過運動碼本中的 K個離散編碼擴展了模型的詞匯表。此外,還引入了兩個特殊Token和,用于標記運動塊的邊界。

2)手部運動Token化

運動Token化器旨在將原始運動序列中包含T幀的手部特征 M = {m, m, ..., m_T} 編碼為⌈T/α⌉個維度為 d 的Token嵌入,其中α 表示時間下采樣率。

a.運動特征

使用三維模型MANO來表示手部姿態(tài),其參數(shù)化為 m = {θ, rrot, τ, β}。在本文中,探索了五種備選表示方式:

MANO-D51:每幀手部運動被編碼為 m∈R¹,包含θ∈R15×3、rrot∈ R³ 和τ∈R³,其中θ和 rrot 以軸角形式表示。

MANO-D99:每幀手部運動被編碼為 m∈R。與 MANO-D51 不同,該特征采用 6D旋轉(zhuǎn)(θ∈R15×6和rrot∈R)而非軸角形式。

MANO-D109:在 MANO-D99 的基礎(chǔ)上進行擴展,額外納入了形狀參數(shù) β ∈ R10。

MANO-D114:在 MANO-D51 的基礎(chǔ)上進行擴展,增加了關(guān)節(jié)位置 j∈R21×3。注意,關(guān)節(jié)位置僅在重建訓(xùn)練中作為輔助特征,而在評估和推理階段,僅使用51 維參數(shù)。

MANO-D162:與 MANO-D114 類似,在MANO-D99的基礎(chǔ)上增加了關(guān)節(jié)位置 j∈R21×3。

論文中提到:6D旋轉(zhuǎn)特征在手指關(guān)節(jié)旋轉(zhuǎn)的重建質(zhì)量上表現(xiàn)更優(yōu),而軸角特征在腕部姿態(tài)重建方面效果更好。研究人員將這一現(xiàn)象歸因于手部不同部位的結(jié)構(gòu)特點—— 腕部通常表現(xiàn)出幅度較大但更為簡單的旋轉(zhuǎn),軸角表示法的簡潔性和計算效率使其在此處更具優(yōu)勢。相比之下,手指旋轉(zhuǎn)涉及更精細的細節(jié),而6D旋轉(zhuǎn)表示法的連續(xù)性和數(shù)值穩(wěn)定性能夠更好地捕捉這些細節(jié)。

盡管由于腕部姿態(tài)誤差的主導(dǎo)影響,使用軸角特征時整體重建誤差更低,但研究人員最終為手部運動Token生成器選擇了6D旋轉(zhuǎn)特征,因為它在 Being-H0 的訓(xùn)練中表現(xiàn)更優(yōu)。

一個可能的解釋是,大型多模態(tài)模型(LMMs)相對容易學(xué)習(xí)腕部姿態(tài)模式,而對精細的手指運動進行建模則面臨更大挑戰(zhàn)。因此,在該研究中,選擇 MANO-D162 作為手部運動的特征。

另外,研究人員打算在未來的工作中探索腕部使用軸角特征與手指使用6D旋轉(zhuǎn)特征的組合方式。

b.分組殘差量化

運動Token生成器的精度對生成的手部運動質(zhì)量以及所學(xué)到的運動先驗知識在下游操作任務(wù)中的可遷移性都有著關(guān)鍵影響。為確保最佳性能,研究人員精心設(shè)計了一款專門用于手部運動的Token生成器。其架構(gòu)基于分組殘差量化器變分自編碼器(GRQ-VAE)構(gòu)建,如下圖所示。

基于GRQ的部件級手部運動Token化

c.部件級運動Token生成器

鑒于腕部參數(shù)重建的復(fù)雜性高于手指運動,研究人員為腕部和手指參數(shù)分別設(shè)計了Token生成器,使每個Token生成器能夠更好地對部件級特征進行建模。

具體而言,手部運動特征m = {θ, rrot, τ, β} 被分解為用于全局姿態(tài)和精確定位的腕部運動 {rrot, τ},以及用于精細操作的手指運動 {θ, β}。

這種部件級Token化不僅改進了特征建模,還提供了明確的Token語義,使大型多模態(tài)模型(LMM)主干能夠更好地捕捉結(jié)構(gòu)化的手部動態(tài)。使用部件級Token生成器時,腕部損失 Lwrist 將被省略。

3)多模態(tài)整合

與傳統(tǒng)的大型語言模型(LLMs)一樣,采用下一個 token 預(yù)測的方式來生成輸出。Being-H0 通過將三種模態(tài) ——RGB視覺、文本和手部運動 —— 統(tǒng)一token化(轉(zhuǎn)換為離散 token)來進行處理。

文本的處理方式遵循大型語言模型的常規(guī)做法,下面詳細闡述另外兩種模態(tài)(視覺和手部運動)的處理過程。

a.視覺Token

視覺輸入需經(jīng)過專門處理,以應(yīng)對可變分辨率圖像與動態(tài)內(nèi)容復(fù)雜度的挑戰(zhàn)。給定輸入圖像后,首先采用動態(tài)分塊策略,根據(jù)圖像內(nèi)容復(fù)雜度生成N 個圖像塊。

參照InternVL 的設(shè)計,該分塊策略包含縮略圖生成以保留全局上下文:始終保留一個下采樣版本 Ithumb(像素混洗比例為0.5)與細節(jié)圖像塊并行處理。

視覺處理過程:首先使用視覺編碼器從這些圖像塊中提取特征,然后通過MLP 層將特征投影到統(tǒng)一的嵌入空間中。

視覺Token使用邊界標記 和 包裹序列,而 作為動態(tài)占位符Token,在處理過程中被實際視覺嵌入實時替換。

b.運動Token

運動數(shù)據(jù)在整合到token 流中之前,會先進行量化處理。對于表示為M的運動特征序列,運動 tokenizer 會將其量化為離散 token 序列 {mi}。

運動序列通過邊界標記和構(gòu)建結(jié)構(gòu),形成每秒128個 token的運動塊。這種結(jié)構(gòu)表示確保運動信息在 token 流中具有清晰的界限,同時保持與Transformer 架構(gòu)的兼容性。

多模態(tài)融合: 該模型通過統(tǒng)一的token空間處理所有模態(tài),采用共享的嵌入層和注意力機制。在融合過程中,視覺token會替換 占位符,而運動token則作為結(jié)構(gòu)化塊插入到文本序列中。

由此生成一個組合token序列 S = {si},其中每個元素si可能代表文本、視覺或動作內(nèi)容。注意力機制在跨模態(tài)間同步運作:對于拼接后的多模態(tài)隱藏狀態(tài)Hv,t,m = [Hv;Ht;Hm](分別代表視覺、文本和運動嵌入),通過共享投影權(quán)重矩陣計算查詢(Query)、鍵(Key)、值(Value):

其中,W {Q,K,V} 表示權(quán)重矩陣。此架構(gòu)支持直接跨模態(tài)注意力機制,使模型能夠捕捉模態(tài)間的深層依賴關(guān)系,例如將視覺觀測關(guān)聯(lián)到特定手部運動,或?qū)⒄Z言指令錨定到運動序列。

預(yù)訓(xùn)練階段,在原始視覺-文本參數(shù) Θv,t 的基礎(chǔ)上擴展,納入了運動參數(shù)Θm,通過共享注意力機制實現(xiàn)對三種模態(tài)的統(tǒng)一處理。模型通過在視覺觀測與語言指令的整體上下文中預(yù)測離散運動Token,學(xué)習(xí)生成連貫的運動序列。

物理指令調(diào)優(yōu)過程

2. 物理空間對齊

上述所提到的預(yù)訓(xùn)練方法旨在彌合視覺-動作之間的鴻溝以構(gòu)建一個基礎(chǔ)視覺-語言-動作模型(VLA),但它面臨著超越標準視覺指令調(diào)優(yōu)的獨特對齊挑戰(zhàn)。

關(guān)鍵難點源于以下三個方面:

(1)來自多源的視覺輸入在相機內(nèi)參上存在差異,且是在動態(tài)世界坐標系下捕獲的數(shù)據(jù);

(2)模型的主干網(wǎng)絡(luò)使用二維視覺-文本預(yù)訓(xùn)練進行初始化,致使其缺乏關(guān)鍵的三維空間先驗知識;

(3)視頻數(shù)據(jù)中缺失人類憑直覺就能理解的力、摩擦力等基本物理屬性。

與生物視覺系統(tǒng)通過具身經(jīng)驗自然形成三維感知不同,該論文中通過物理空間對齊來顯式地校準這些不同的數(shù)據(jù)源:將觀測結(jié)果統(tǒng)一到一致的坐標系中,并逐步“灌輸”三維推理能力和物理理解能力。

為了構(gòu)建一個足夠大規(guī)模的靈巧人類手部動作視頻數(shù)據(jù)集,需要從各種數(shù)據(jù)集和公開來源收集樣本。然而,這種方法會導(dǎo)致相機系統(tǒng)存在差異,給有效的預(yù)訓(xùn)練帶來挑戰(zhàn)。此外,現(xiàn)有的語言-多模態(tài)模型(LMMs)的3D感知能力有限。

為緩解這一問題,該論文中引入了物理空間對齊技術(shù) —— 這是一個統(tǒng)一的工具包,可將不同相機拍攝的視頻映射到一致的物理空間中,同時融3D空間推理和物理屬性(若有),以增強跨數(shù)據(jù)集的幾何一致性和感知一致性。

接下來介紹論文中提到的兩種物理空間對齊策略:弱透視投影對齊和視角不變的動作分布平衡。

1)弱透視投影對齊

不同數(shù)據(jù)源的相機系統(tǒng)存在固有差異,導(dǎo)致3D空間的投影不一致。盡管人類能夠直觀地感知深度并估計手部與物體之間的抓取距離,但在這類多源數(shù)據(jù)集上訓(xùn)練的模型往往難以將圖像投影準確映射到實際3D場景中,從而在3D空間推理中產(chǎn)生誤差。

為緩解這一問題,研究人員建立了統(tǒng)一的弱透視相機空間,確保從2D視覺內(nèi)容到共享3D參考框架的一致性對齊。這種方法能為相似深度的物體維持統(tǒng)一的像素尺度,減輕因相機內(nèi)參不同造成的不一致性。

2)視角不變的動作分布平衡

培養(yǎng)模型穩(wěn)健的指令遵循能力,需要對指令微調(diào)數(shù)據(jù)進行細致的預(yù)處理,以確保數(shù)據(jù)分布的平衡性,對于物理指令微調(diào)而言尤其如此。

如果數(shù)據(jù)集中某一種相機配置占主導(dǎo)地位,可能會給3D感知系統(tǒng)帶來偏差,最終限制模型在未見過的相機設(shè)置中的泛化能力。

為緩解這一問題,研究人員提出了一種新穎的分布平衡策略,對小規(guī)模數(shù)據(jù)源的視頻-動作對進行增強,避免它們被大規(guī)模數(shù)據(jù)源的樣本所掩蓋。在平衡過程中,在不改變相機視角和位置的前提下,調(diào)整手部姿態(tài)分布。重要的是,該方法保留了來自不同數(shù)據(jù)源的動作之間的弱透視一致性,確保連貫的3D理解。

3)其它

除上述兩種策略外,該論文還提出了一種觀點:整合更豐富的物理線索能進一步提升模型對空間和物理環(huán)境的理解。例如,融入視覺深度信息、觸覺反饋或其他多感官信號,可為人類活動提供更具扎實依據(jù)且更貼合實際的表征。這些模態(tài)能從不同角度補充物理交互和3D結(jié)構(gòu)的信息,而僅靠2D視覺輸入,這些信息往往模糊不清或表述不足。

這種多感官整合可解決純視覺方法固有的根本性局限。例如,RGB-D 傳感器提供的深度信息能消除弱透視投影帶來的空間模糊性;觸覺反饋可捕捉關(guān)鍵的接觸動態(tài)、握力和材料屬性,這些在視覺觀察中不可見,但對成功完成操作至關(guān)重要;物體交互產(chǎn)生的音頻信號能進一步區(qū)分視覺上相似但物理過程不同的操作策略,比如區(qū)分輕柔放置和用力按壓動作。

這些增強的對齊策略能構(gòu)建更穩(wěn)健的表征,更精準地捕捉人類在操作任務(wù)中自然具備的豐富物理理解能力。

對于規(guī)模規(guī)模更大,更多樣化的數(shù)據(jù)集,整合此類多模態(tài)物理線索對于彌合人類演示數(shù)據(jù)與機器人在各種真實場景中可靠部署之間的差距,將變得愈發(fā)重要。

3. 后訓(xùn)練

經(jīng)過預(yù)訓(xùn)練和物理空間對齊后,基礎(chǔ)VLA模型具備了全面的視覺-語言-動作理解能力,但還需要適應(yīng)特定的機器人操作任務(wù)。

后訓(xùn)練階段將模型參數(shù)從Θv,t,m 擴展至Θa,v,t|m,納入了動作參數(shù)Θa,使其能夠直接實現(xiàn)機器人控制,同時利用預(yù)訓(xùn)練過程中學(xué)習(xí)到的豐富多模態(tài)表征。

物理指令調(diào)優(yōu)過程

人類手部與機器人靈巧手/夾爪之間的運動學(xué)差異,使得基礎(chǔ) VLA 模型及其動作 token 無法直接遷移使用。研究人員采用基于非自回歸 MLP 的投影方法來彌合這一差距。

Being-H0模型物理指令調(diào)優(yōu)的三個關(guān)鍵組成部分

采用VLA主干網(wǎng)絡(luò)作為預(yù)訓(xùn)練編碼器,通過輕量級MLP投影頭(fp)將靈巧手的本體感知狀態(tài)投射到其嵌入空間中。該本體感知嵌入與視覺-文本Token結(jié)合,形成統(tǒng)一上下文(ctx) ,實現(xiàn)對感官輸入、語言指令和當前物理構(gòu)型的協(xié)同推理。

在動作生成方面,使用一組可學(xué)習(xí)的查詢 token {q1, ..., qNa},這些 token在預(yù)訓(xùn)練編碼器中關(guān)注上述上下文信息,同時,通過一個回歸策略頭 MLP(fr)將預(yù)訓(xùn)練編碼器的輸出轉(zhuǎn)換為可執(zhí)行的靈巧姿態(tài)。

訓(xùn)練后階段的目標是通過模仿學(xué)習(xí)來復(fù)現(xiàn)專家演示。這種方法能有效將預(yù)訓(xùn)練的基礎(chǔ)VLA模型升級為可生成機器人可執(zhí)行控制指令的模型,同時保留跨模態(tài)推理能力,并支持多項任務(wù),例如:從視覺-文本輸入生成動作、基于文本對觀察到的動作進行描述,以及通過特定領(lǐng)域微調(diào)實現(xiàn)機器人控制適配。

二、UniHand: 手部動作指令數(shù)據(jù)集

1. 數(shù)據(jù)集來源

1)數(shù)據(jù)集來源于三個主要渠道:

動作捕捉數(shù)據(jù)集:這類數(shù)據(jù)集包含來自受控環(huán)境(如工作室、實驗室)中多視角動作捕捉系統(tǒng)的高精度3D標注,但其多樣性往往有限。例如,OAKINK2提供了多視角、以物體為中心的真實世界雙手操作記錄。

VR錄制數(shù)據(jù)集:這類數(shù)據(jù)集利用VR設(shè)備(如蘋果 Vision Pro),通過校準相機和基于SLAM 的跟蹤技術(shù),在約束較少的環(huán)境中捕捉自然的手部-物體交互,同時保持可靠的3D真值。例如,EgoDex,其中包含多達194項家庭操作任務(wù),如系鞋帶和疊衣服。

偽標注數(shù)據(jù)集:利用現(xiàn)成的手部動作預(yù)測器,從真實場景視頻中生成偽3D標簽。盡管這類數(shù)據(jù)集噪聲較多,但在可擴展性和多樣性方面表現(xiàn)出色 。例如,Taste-Rob包含約10萬個從固定視角錄制的第一視角視頻,且配有對齊的語言指令。

UniHand 數(shù)據(jù)集整合了 11 個來源的信息,不僅包含詳盡的手部動作標注,還配有對應(yīng)的 RGB觀測數(shù)據(jù)。該數(shù)據(jù)集規(guī)模龐大,共涵蓋超過 44萬個任務(wù)軌跡,包含1.3億余幀畫面與1100多小時的視頻內(nèi)容。

受計算成本限制,研究人員從UniHand中抽取了250萬個指令數(shù)據(jù)點用于預(yù)訓(xùn)練。這一子集是基于平衡采樣策略選取的,以確保任務(wù)類型和數(shù)據(jù)來源的多樣性,并將其稱為 UniHand-2.5M,據(jù)悉,這是目前規(guī)模最大的第一視角手部動作數(shù)據(jù)集。

UniHand-2.5M 數(shù)據(jù)集

備注:左側(cè)表示來自不同數(shù)據(jù)源類型的場景和任務(wù);中間表示不同數(shù)據(jù)源、數(shù)據(jù)類型及時長的分布情況;右側(cè)表示不同數(shù)據(jù)類型的樣本。

UniHand數(shù)據(jù)集信息統(tǒng)計

備注:#Inst 指的是用于該研究所生成的指令樣本數(shù)量。

2. 數(shù)據(jù)整備流程

1)手部姿態(tài)標準化

模型將手部動作視為3D信號,學(xué)習(xí)從2D視覺觀測到3D空間坐標的顯式映射,以確保幾何精度和視覺-語義一致性。為解決不同數(shù)據(jù)集間動作標簽的異質(zhì)性問題,需要通過手部姿態(tài)標準化來整合不同數(shù)據(jù)源。

對于包含動作捕捉或SLAM跟蹤標簽的數(shù)據(jù)集,直接提取其MANO參數(shù)形式的標注 。當僅存在3D手部關(guān)節(jié)位置時,通過基于梯度的優(yōu)化方法推導(dǎo)出相應(yīng)的MANO 參數(shù)。若數(shù)據(jù)集完全缺乏 3D手部姿態(tài)或關(guān)節(jié)標注,則利用 HaMer進行逐幀姿態(tài)估計,以保持一致的動作語義。

為提升HaMer 輸出結(jié)果的可靠性,通過識別姿態(tài)不連續(xù)性來檢測并糾正左右手匹配錯誤,隨后采用時間插值法填補微小缺口。此外,擬合過程中還融入了關(guān)節(jié)角度約束和時間平滑正則化,以確保手部動作在物理上合理且連貫。

2)任務(wù)描述標簽

為了在視覺、語言和動作之間建立堅實的語義關(guān)聯(lián),引入了一個結(jié)構(gòu)化的分層標注框架,該框架對動作語義進行了豐富,克服了現(xiàn)有數(shù)據(jù)集中文本標簽稀疏或不精確的問題。此框架提供詳細且一致的文本描述,使VLA 模型能夠有效對齊視覺輸入、自然語言指令和量化的手部動作表征。

為實現(xiàn)結(jié)構(gòu)化覆蓋,將每個視頻分割為不重疊的片段,每個片段最長為10秒,確保每個片段都能捕捉任務(wù)的一個明確階段。然后,以2FPS的頻率對幀進行采樣,并利用Gemini-2.5-Flash-Lite在兩個時間層級生成標注:在片段層級,生成祈使句指令和簡潔摘要,描述整體的手部活動和物體交互;

在更精細的每秒層級,將每個片段進一步劃分為重疊的1秒窗口,為其標注精確的指令和描述,詳細說明接觸狀態(tài)、物體屬性、手部部位以及相對于相機視角的動作軌跡。

為保證清晰度和完整性,對全局的雙手動作和單個手的動作分別進行標注,同時捕捉雙邊和單邊描述。這種多尺度標注策略確保了全面且一致的覆蓋,在統(tǒng)一框架中架起了高層級任務(wù)目標與細粒度手-物交互之間的橋梁。

3)指令數(shù)據(jù)生成

基于系統(tǒng)性的標注成果,構(gòu)建了指令跟隨訓(xùn)練數(shù)據(jù),旨在為基礎(chǔ)VLA模型明確建立豐富的視覺-語言-動作對齊關(guān)系。為此,所設(shè)計的指令任務(wù)聚焦于手部動作理解的多個關(guān)聯(lián)層面,包括手部軌跡與視覺上下文的時空對齊、精確的物體屬性與接觸狀態(tài)、清晰的動作意圖,以及高層級指令與細粒度動作步驟之間的一致性。

遵循這些原則,針對三種互補的任務(wù)類型開發(fā)了訓(xùn)練數(shù)據(jù):

(1)指令性動作生成:模型學(xué)習(xí)在場景圖像和任務(wù)指令的約束下,生成逐步的動作序列;

(2)運動轉(zhuǎn)譯:要求模型將運動序列和視覺線索轉(zhuǎn)換為描述手-物交互的語言文本;

(3)基于上下文的運動預(yù)測:讓模型根據(jù)先前的動作歷史、當前的場景觀測以及可選的指令或任務(wù)目標,預(yù)測后續(xù)的動作序列。

在實現(xiàn)過程中,為每種任務(wù)類型設(shè)計了約20個基礎(chǔ)模板,并利用 Gemini-2.5-Pro 生成多樣化的指令變體。每個模板都明確包含目標時長規(guī)格,使模型能夠處理不同的時間粒度和序列長度。通過基于規(guī)則的實例化,向這些模板中填充關(guān)聯(lián)指令、動作token 和明確的長度約束。

為確保訓(xùn)練集中視覺視角分布的平衡性,采用視角不變動作分布平衡方法來增強數(shù)據(jù);谶@一平衡后的數(shù)據(jù)集,生成了超過1.65億個高質(zhì)量指令對,涵蓋多個時間尺度、用手配置和操作場景,并通過系統(tǒng)性質(zhì)量檢查確保語義連貫性。

為進一步平衡訓(xùn)練數(shù)據(jù)中數(shù)據(jù)源和任務(wù)類型的分布,從完整數(shù)據(jù)集中抽取了250萬個實例的子集,該子集對任務(wù)類別和數(shù)據(jù)來源的覆蓋更為均衡。

對于數(shù)據(jù)集UniHand-2.5M,從視角平衡數(shù)據(jù)中生成的樣本比例下圖所示。這種統(tǒng)一設(shè)計為模型提供了穩(wěn)健的監(jiān)督,使其能夠?qū)W習(xí)視覺、語言與結(jié)構(gòu)化動作之間的一致性映射,包括雙手和單手的手-物交互。

UniHand-2.5M數(shù)據(jù)集中的樣本比例

總之,這種結(jié)構(gòu)化的多尺度標注框架確保了對高層級任務(wù)目標和細粒度手-物交互的全面且一致的覆蓋,為下游建模和分析提供了豐富的動作數(shù)據(jù)。

三、核心問題與解決方案

1. 兩個核心問題

1)大規(guī)模人類活動視頻能否支持靈巧視覺-語言-動作模型的預(yù)訓(xùn)練,使其能夠顯式地理解并模仿人類動作——類似于GPT-3通過大規(guī)模預(yù)訓(xùn)練學(xué)習(xí)語言的方式?

2)這種預(yù)訓(xùn)練模型能否通過后訓(xùn)練適配,有效地將其能力遷移到機器人操作任務(wù)中?

為解決這些問題,必須克服若干關(guān)鍵挑戰(zhàn)。下面,論文中分析了這些難點并概述相應(yīng)的解決方案。

2. 解決方案

1)預(yù)訓(xùn)練數(shù)據(jù)整備

自然語言處理(NLP)和計算機視覺(CV)領(lǐng)域相比,當前的視覺-語言-動作模型(VLAs)面臨著嚴重的數(shù)據(jù)稀缺問題。盡管存在如 Open X-Embodiment 和 AgiBot 等數(shù)據(jù)集,但其規(guī)模仍比現(xiàn)有的多模態(tài)基準數(shù)據(jù)集小幾個數(shù)量級,并且主要關(guān)注末端執(zhí)行器控制,由于硬件成本而忽略了細粒度的手指協(xié)調(diào)動作。

人類活動視頻可能有助于解決這一問題,但其潛力尚未被充分利用,因為大多數(shù)方法主要側(cè)重于隱式對齊(例如,GR00T N1.5 的隱動作優(yōu)化(潛在動作優(yōu)化),且其益處尚未得到證實。

最近,一些工作開始基于實驗室采集數(shù)據(jù)集探索文本到運動生成,這些數(shù)據(jù)集具有精確標注。然而,這些數(shù)據(jù)受限于其規(guī)模小,因此缺乏多樣性和泛化能力。相反,野外采集數(shù)據(jù)集(例如Ego4D)能夠提供規(guī)模優(yōu)勢,但這些數(shù)據(jù)集存在相機不一致性和運動粒度問題。

該論文中通過MANO參數(shù)標準化和弱透視對齊,系統(tǒng)性地整合了這些異構(gòu)數(shù)據(jù)源,構(gòu)建了一個涵蓋 150 多個任務(wù)、時長超過1000小時的統(tǒng)一數(shù)據(jù)集。

2)精確手部動作量化

該研究將手部動作視為一種“外語”,但引出了一個關(guān)鍵問題:“離散動作Token能否保持動作預(yù)測所需的足夠精度?” 盡管以往的研究表明,量化會破壞姿態(tài)連續(xù)性并損失精度,但通過其精心設(shè)計,基于矢量量化(VQ)的Token生成器實現(xiàn)了毫米級的重建精度。

具體而言,利用一維卷積編碼器對連續(xù)的MANO動作序列 M∈RT×D 進行離散化處理,生成特征圖z∈R⌈T/α⌉×d,過程如下:

其中,T 表示幀數(shù),α 為時間下采樣率。動作Token mi∈{, ..., } 由和分隔,形成連貫的動作塊,以確保在統(tǒng)一的大型多模態(tài)模型(LMM)中與文本實現(xiàn)無縫整合。

3)統(tǒng)一跨模態(tài)推理

為了建模視覺觀測、語言指令和手部動作之間的復(fù)雜關(guān)系,研究人員將所有模態(tài)數(shù)據(jù)處理為統(tǒng)一的Token序列 S = {si},其中每個Token si 可代表文本、視覺或動作信息。視覺Token用于替換 < IMG_CONTEXT > 占位符,而動作Token則在序列中構(gòu)成連貫的塊結(jié)構(gòu)。

跨模態(tài)交互通過共享注意力機制實現(xiàn),其中查詢Qv,t,m、鍵Kv,t,m 和值Vv,t,m 均由拼接后的狀態(tài)Hv,t,m = [Hv;Ht;Hm] 計算得出。這使得模型能夠?qū)W習(xí)豐富的多模態(tài)依賴關(guān)系:將視覺場景映射到操作策略、將語言指令與精確的手指動作關(guān)聯(lián),以及將時間動作模式與任務(wù)目標對齊。

4)自適應(yīng)機器人控制遷移

盡管預(yù)訓(xùn)練的基礎(chǔ)視覺-語言-動作模型(VLA)能夠生成連續(xù)運動并保持廣泛的能力,但由于運動學(xué)不匹配、自由度差異和物理約束等問題,將人類手部動作直接遷移到下游操縱器仍面臨挑戰(zhàn)。

為驗證從大規(guī)模人類視頻中學(xué)習(xí)的有效性,該論文采用了一種基于多層感知器(MLP)的簡單投影方法 —— 使用一組固定的可學(xué)習(xí)查詢作為下游操縱器的動作塊。

結(jié)語

Being-H0是一種基于大規(guī)模人類視頻訓(xùn)練、具備高擴展性與樣本高效性的靈巧操作型視覺-語言-動作(VLA)模型。其創(chuàng)新性在于采用物理指令微調(diào)范式,包含:預(yù)訓(xùn)練、物理空間對齊和后訓(xùn)練。

該研究解決了從人類演示視頻中學(xué)習(xí)靈巧操作的四大關(guān)鍵挑戰(zhàn):

預(yù)訓(xùn)練數(shù)據(jù)整備:通過MANO參數(shù)標準化與投影對齊技術(shù),系統(tǒng)集成異構(gòu)數(shù)據(jù)源。

手部動作量化:所提出的分組殘差量化方案在實現(xiàn)毫米級重建精度的同時,無縫銜接語言模型,實現(xiàn)動作與語言的同構(gòu)處理。

跨模態(tài)推理:將多模態(tài)信號統(tǒng)一到自回歸序列中,構(gòu)建連接視覺場景→操作策略、語言指令→精準手指動作的復(fù)雜跨模態(tài)依賴。

機器人控制遷移:通過物理指令微調(diào),克服人手與機械手的運動學(xué)差異,有效遷移預(yù)訓(xùn)練多模態(tài)表征。

同時,該論文的研究為基于人類視頻的大規(guī)模機器人操作學(xué)習(xí)奠定了基礎(chǔ),并指出以下未來研究方向:

深化物理空間對齊:通過融合深度感知信息與觸覺反饋,提升從人類演示到機器人控制的遷移能力,增強操作技能的物理合理性。

拓展復(fù)雜場景應(yīng)用:將Being-H0模型延伸至工具使用、多物體交互及長程推理場景,開辟更具挑戰(zhàn)性的研究前沿。

融合仿真與強化學(xué)習(xí):結(jié)合仿真環(huán)境與強化學(xué)習(xí)框架,實現(xiàn)更魯棒的策略學(xué)習(xí)及更安全的現(xiàn)實世界部署。

       原文標題 : 具身智能VLA困于“數(shù)據(jù)泥潭”,靠人類活動視頻數(shù)據(jù)能否破局?

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號