靈初智能發(fā)布端到端VLA模型Psi R0.5 僅需兩小時數(shù)據(jù)實現(xiàn)物品、場景全面泛化
近日,靈初兩Figure 發(fā)布的發(fā)布端到端 VLA 具身大模型 Helix,采用分層架構(gòu)同時實現(xiàn)高頻控制和高泛化能力,端到端引起了業(yè)內(nèi)廣泛關(guān)注。模型面泛幾乎同期,僅需據(jù)實景全中國具身智能團(tuán)隊靈初智能發(fā)布了基于強(qiáng)化學(xué)習(xí)的時數(shù)增強(qiáng)版分層架構(gòu)端到端 VLA 模型 Psi R0.5,這距離靈初智能團(tuán)隊去年底發(fā)布的現(xiàn)物 Psi R0 僅 2 個月。
本次發(fā)布的品場新模型重大升級,對于復(fù)雜場景的靈初兩泛化性、靈巧性、發(fā)布CoT、端到端長程任務(wù)能力上均有顯著提升,模型面泛同時完成泛化抓取訓(xùn)練所需的僅需據(jù)實景全數(shù)據(jù)量僅需 Helix 數(shù)據(jù)量的 0.4%!在全球范圍內(nèi)實現(xiàn)了泛化靈巧操作與訓(xùn)練效率的時數(shù)雙重領(lǐng)先。
此外,現(xiàn)物靈初智能團(tuán)隊連發(fā)四篇高質(zhì)量論文,將團(tuán)隊在高效實現(xiàn)泛化抓取、堆疊場景的物品檢索、利用外部環(huán)境配合抓取、VLA 安全對齊方面的最新成果悉數(shù)公開,展現(xiàn)了中國團(tuán)隊在具身智能領(lǐng)域的強(qiáng)悍戰(zhàn)斗力。
Psi R0.5 路徑演進(jìn)圖
DexGraspVLA僅需兩小時靈巧手抓取數(shù)據(jù)
輕松實現(xiàn)物品、燈光、場景泛化并實現(xiàn)真正 CoT
DexGraspVLA 是首個用于靈巧手通用抓取的 VLA(Vision-Language-Action)框架,通過少量的訓(xùn)練,即刻在多變環(huán)境下智能涌現(xiàn)靈巧操作能力,能夠像人類一樣快速、準(zhǔn)確地拾取各種物品。
DexGraspVLA 是一個融合視覺,語言和動作的層次化框架:
· High-level Planner:高層規(guī)劃由預(yù)訓(xùn)練的大型視覺語言模型(VLM)實現(xiàn),可理解多樣化指令、自主決定抓取策略。
· Low-level Controller:低層擴(kuò)散策略通過實時視覺反饋,閉環(huán)掌握目標(biāo)物體,智能涌現(xiàn)出靈巧操作能力。
整個框架的核心在于將多樣化的圖像輸入數(shù)據(jù)通過現(xiàn)有的 Foundation Model 轉(zhuǎn)換成 Domain-invariance 的表征,并端到端地訓(xùn)練下層控制模型。
DexGraspVLA 框架圖
從實驗結(jié)果看,靈初智能僅使用了約 2 小時的靈巧手抓取數(shù)據(jù)(2094 條軌跡 x 3.5 秒 / 條 ÷ 60 秒 / 分鐘 ÷ 60 分鐘 / 小時 ≈ 2 小時),泛化到上千種不同物體,位置,堆疊,燈光,背景下成功抓取,而這個數(shù)據(jù)量僅僅是 Figure 的 0.4%,數(shù)據(jù)利用效率提高 250 倍!
同時,DexGraspVLA 相比現(xiàn)有方案還具有幾項優(yōu)勢:
· 根據(jù)語言指令分辨出目標(biāo)物體,處理堆疊場景下的目標(biāo)物體的檢索并抓取
· 抓取速度快(所有視頻無加速,同類工作中節(jié)拍較快),閉環(huán)姿態(tài)矯正與重抓取能力(ReGrasp)
· 大腦具有 CoT 長程推理能力:自主推理抓取順序并將所有物體依次抓取
DexGraspVLA 展現(xiàn)出對光照變化、背景干擾和物體姿態(tài)的強(qiáng)大魯棒性和泛化性,讓機(jī)器人的靈巧抓取達(dá)到人類級別。
基于預(yù)訓(xùn)練的大模型:使用自然語言與人類交互,具有高智能的長程推理能力,能夠自主理解人類話語并推理任務(wù)。因此可以一次設(shè)定多個抓取目標(biāo),通過 CoT 實現(xiàn)復(fù)雜流程下的自動分揀或清理。
DexGraspVLA 仍然會自動分析當(dāng)前姿態(tài)偏差,通過細(xì)微調(diào)整腕關(guān)節(jié)和手部角度重新嘗試抓取,實現(xiàn)非常魯棒且高效的抓取能力,達(dá)到極強(qiáng)的泛化能力。
Retrieval Dexterity
堆疊場景中的高效物體檢索策略
強(qiáng)化學(xué)習(xí)底層驅(qū)動,簡單 reward 涌現(xiàn)復(fù)雜動作
在大多數(shù)實際場景中,物品往往以無規(guī)則、堆疊的方式擺放。傳統(tǒng)方法要求機(jī)器人逐件搬開遮擋物,不僅耗時,還對機(jī)器人自身抓取能力提出了很高的要求。
為了解決這一難題,靈初智能開發(fā)了一套基于強(qiáng)化學(xué)習(xí)的物體檢索策略 ——Retrieval Dexterity,解決了堆疊場景中物體檢索識別效率低的問題。
Retrieval Dexterity 系統(tǒng)中未用真機(jī)數(shù)據(jù),靈初團(tuán)隊沒有采用真機(jī)數(shù)據(jù)進(jìn)行訓(xùn)練,而是直接在仿真環(huán)境中通過強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練。通過在仿真環(huán)境中大規(guī)模生成復(fù)雜的堆疊場景,訓(xùn)練模型直至涌現(xiàn)出合適的檢索操作,隨后再將這些操作零樣本遷移至現(xiàn)實機(jī)器人和復(fù)雜環(huán)境中。
Retrieval Dexterity 框架圖
從雜亂堆疊物體中快速取出目標(biāo)物體
在超過 10 種不同形狀、大小的生活物品測試中,Retrieval Dexterity 展現(xiàn)出了優(yōu)秀的性能,不僅能夠高效完成訓(xùn)練過的物體的檢索任務(wù),還能將檢索能力泛化到未見過的新物體上。
效率對比傳統(tǒng)方法提升明顯
與人為設(shè)定的動作相比,Retrieval Dexterity 在所有場景中平均減少了 38% 的操作步驟。與模擬的 “將所有物體抓起來并放開” 相比,該方法更是平均減少了 90% 的步驟數(shù)量。這種效率提升主要得益于多指靈巧手能夠直接與遮擋物進(jìn)行交互,并隨時移動它們,而不需要逐個移除。
ExDex:借力外部環(huán)境
抓取 “不可能” 物體
外部靈巧性解決物品超過機(jī)器人末端執(zhí)行器的最大開度問題
當(dāng)物體的底面尺寸超過機(jī)器人末端執(zhí)行器的最大開度時,傳統(tǒng)方法往往無法直接對物體進(jìn)行抓取,這種情況在商場等商業(yè)場景尤為常見。為了解決這一難題,靈初智能推出了 ExDex—— 一種基于外部靈巧性(extrinsic dexterity)抓取的創(chuàng)新解決方案。
ExDex 能夠利用環(huán)境特征進(jìn)行非夾持式操作,憑借多指靈巧手的靈活性和操作能力,實現(xiàn)更豐富的環(huán)境交互。
強(qiáng)化學(xué)習(xí)帶來超越人類遙操作水平的靈巧操作
通過強(qiáng)化學(xué)習(xí),ExDex 涌現(xiàn)出自主制定策略的能力,借助周圍環(huán)境抓取那些無法直接抓取的物體。例如,機(jī)器人可以將物體先推到桌面邊緣或墻體邊緣,再利用這些環(huán)境特征完成抓取任務(wù)。這種操作通過傳統(tǒng)的遙操作方式幾乎無法實現(xiàn),充分體現(xiàn)了強(qiáng)化學(xué)習(xí)的強(qiáng)大優(yōu)勢。
在對數(shù)十種不同家居物品的大量實驗中,ExDex 驗證了其優(yōu)越的性能和對新物體的泛化能力,并成功將仿真訓(xùn)練的策略無縫遷移到真實機(jī)器人中,實現(xiàn)了從仿真到現(xiàn)實的高效過渡。
SafeVLA:人機(jī)安全交互的 “守護(hù)神”
當(dāng)下,具身智能機(jī)器人頻繁出圈,從春晚跳舞的 Unitree 人形機(jī)器人,到波蘭街頭遛機(jī)器狗的新奇場景,讓人看到人機(jī)交互的無限可能,但安全問題也不容忽視。視覺 - 語言 - 行動模型(VLAs)在革新機(jī)器人技術(shù)時,也藏著安全隱患。
左圖呈現(xiàn)了傳統(tǒng) VLA 模型在抓取任務(wù)中的三種典型不安全行為:1)對無關(guān)物體的嚴(yán)重?fù)p壞,2)目標(biāo)識別錯誤導(dǎo)致危險物體的誤用,以及 3)執(zhí)行指令時與危險物體發(fā)生交互。右圖通過導(dǎo)航路徑示例,進(jìn)一步展示了傳統(tǒng) VLA 在導(dǎo)航過程中的三種不安全行為
本周,北京大學(xué) PAIR - Lab 團(tuán)隊攜手靈初智能重磅推出了具身安全模型 SafeVLA,通過安全對齊,讓機(jī)器人在復(fù)雜場景安全高效執(zhí)行任務(wù),在對抗干擾場景中魯棒性極高。
SafeVLA 把 “以人為本” 刻進(jìn) DNA,不像傳統(tǒng)機(jī)器人只盯著任務(wù)完成,它把人類安全放在首位。技術(shù)上,引入約束馬爾可夫決策過程(CMDP)范式,把現(xiàn)實安全約束融入仿真環(huán)境大規(guī)模采樣。SafeVLA 在安全性和任務(wù)執(zhí)行方面均取得突破性進(jìn)展,分別提升 83.58% 和 3.85%,充分證明了其在平衡安全與效率方面的卓越能力。
團(tuán)隊開發(fā)全新仿真環(huán)境 Safety - CHORES,集成安全約束功能,支持用戶自定義規(guī)則,代碼還完全開源,直接給全球研究者和開發(fā)者送福利。而且,SafeVLA 在 12 個分布外(OOD)實驗里,面對光照、材質(zhì)變化和復(fù)雜環(huán)境擾動,始終穩(wěn)定發(fā)揮,實力碾壓其他模型。