當(dāng)前位置:首頁 > 百科 > 靈初智能發(fā)布端到端VLA模型Psi R0.5 僅需兩小時數(shù)據(jù)實現(xiàn)物品、場景全面泛化 正文

靈初智能發(fā)布端到端VLA模型Psi R0.5 僅需兩小時數(shù)據(jù)實現(xiàn)物品、場景全面泛化

來源:千龍網(wǎng)   作者:湖北   時間:2025-03-16 04:13:54

近日,靈初兩Figure 發(fā)布的發(fā)布端到端 VLA 具身大模型  Helix,采用分層架構(gòu)同時實現(xiàn)高頻控制和高泛化能力,端到端引起了業(yè)內(nèi)廣泛關(guān)注。模型面泛幾乎同期,僅需據(jù)實景全中國具身智能團(tuán)隊靈初智能發(fā)布了基于強(qiáng)化學(xué)習(xí)的時數(shù)增強(qiáng)版分層架構(gòu)端到端 VLA  模型 Psi R0.5,這距離靈初智能團(tuán)隊去年底發(fā)布的現(xiàn)物 Psi R0 僅 2 個月。

本次發(fā)布的品場新模型重大升級,對于復(fù)雜場景的靈初兩泛化性靈巧性、發(fā)布CoT、端到端長程任務(wù)能力上均有顯著提升,模型面泛同時完成泛化抓取訓(xùn)練所需的僅需據(jù)實景全數(shù)據(jù)量僅需  Helix 數(shù)據(jù)量的 0.4%!在全球范圍內(nèi)實現(xiàn)了泛化靈巧操作與訓(xùn)練效率的時數(shù)雙重領(lǐng)先。

此外,現(xiàn)物靈初智能團(tuán)隊連發(fā)四篇高質(zhì)量論文,將團(tuán)隊在高效實現(xiàn)泛化抓取、堆疊場景的物品檢索利用外部環(huán)境配合抓取、VLA  安全對齊方面的最新成果悉數(shù)公開,展現(xiàn)了中國團(tuán)隊在具身智能領(lǐng)域的強(qiáng)悍戰(zhàn)斗力。


Psi R0.5 路徑演進(jìn)圖

DexGraspVLA僅需兩小時靈巧手抓取數(shù)據(jù)

輕松實現(xiàn)物品、燈光、場景泛化并實現(xiàn)真正  CoT

DexGraspVLA 是首個用于靈巧手通用抓取的  VLA(Vision-Language-Action)框架,通過少量的訓(xùn)練,即刻在多變環(huán)境下智能涌現(xiàn)靈巧操作能力,能夠像人類一樣快速、準(zhǔn)確地拾取各種物品。

DexGraspVLA 是一個融合視覺,語言和動作的層次化框架:

· High-level  Planner:高層規(guī)劃由預(yù)訓(xùn)練的大型視覺語言模型(VLM)實現(xiàn),可理解多樣化指令、自主決定抓取策略。

· Low-level  Controller:低層擴(kuò)散策略通過實時視覺反饋,閉環(huán)掌握目標(biāo)物體智能涌現(xiàn)出靈巧操作能力。

整個框架的核心在于將多樣化的圖像輸入數(shù)據(jù)通過現(xiàn)有的 Foundation Model 轉(zhuǎn)換成 Domain-invariance  的表征,并端到端地訓(xùn)練下層控制模型。


DexGraspVLA 框架圖

從實驗結(jié)果看,靈初智能僅使用了約 2 小時的靈巧手抓取數(shù)據(jù)(2094 條軌跡 x 3.5 秒 / 條 ÷ 60 秒  / 分鐘 ÷ 60 分鐘 / 小時 ≈ 2 小時),泛化到上千種不同物體,位置,堆疊,燈光,背景下成功抓取,而這個數(shù)據(jù)量僅僅是 Figure 的  0.4%,數(shù)據(jù)利用效率提高 250 倍

同時,DexGraspVLA 相比現(xiàn)有方案還具有幾項優(yōu)勢:

· 根據(jù)語言指令分辨出目標(biāo)物體,處理堆疊場景下的目標(biāo)物體的檢索并抓取

· 抓取速度快(所有視頻無加速,同類工作中節(jié)拍較快),閉環(huán)姿態(tài)矯正與重抓取能力(ReGrasp)

· 大腦具有 CoT 長程推理能力自主推理抓取順序并將所有物體依次抓取

DexGraspVLA  展現(xiàn)出對光照變化、背景干擾和物體姿態(tài)的強(qiáng)大魯棒性和泛化性,讓機(jī)器人的靈巧抓取達(dá)到人類級別。

基于預(yù)訓(xùn)練的大模型:使用自然語言與人類交互,具有高智能的長程推理能力,能夠自主理解人類話語并推理任務(wù)。因此可以一次設(shè)定多個抓取目標(biāo),通過 CoT  實現(xiàn)復(fù)雜流程下的自動分揀或清理。

DexGraspVLA  仍然會自動分析當(dāng)前姿態(tài)偏差,通過細(xì)微調(diào)整腕關(guān)節(jié)和手部角度重新嘗試抓取實現(xiàn)非常魯棒且高效的抓取能力,達(dá)到極強(qiáng)的泛化能力。

Retrieval Dexterity

堆疊場景中的高效物體檢索策略

強(qiáng)化學(xué)習(xí)底層驅(qū)動,簡單 reward 涌現(xiàn)復(fù)雜動作

在大多數(shù)實際場景中,物品往往以無規(guī)則、堆疊的方式擺放。傳統(tǒng)方法要求機(jī)器人逐件搬開遮擋物,不僅耗時,還對機(jī)器人自身抓取能力提出了很高的要求。

為了解決這一難題,靈初智能開發(fā)了一套基于強(qiáng)化學(xué)習(xí)的物體檢索策略 ——Retrieval  Dexterity,解決了堆疊場景中物體檢索識別效率低的問題。

Retrieval Dexterity  系統(tǒng)中未用真機(jī)數(shù)據(jù),靈初團(tuán)隊沒有采用真機(jī)數(shù)據(jù)進(jìn)行訓(xùn)練,而是直接在仿真環(huán)境中通過強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練。通過在仿真環(huán)境中大規(guī)模生成復(fù)雜的堆疊場景,訓(xùn)練模型直至涌現(xiàn)出合適的檢索操作,隨后再將這些操作零樣本遷移至現(xiàn)實機(jī)器人和復(fù)雜環(huán)境中。


Retrieval Dexterity 框架圖

從雜亂堆疊物體中快速取出目標(biāo)物體

在超過 10 種不同形狀、大小的生活物品測試中,Retrieval Dexterity  展現(xiàn)出了優(yōu)秀的性能,不僅能夠高效完成訓(xùn)練過的物體的檢索任務(wù)還能將檢索能力泛化到未見過的新物體上。

效率對比傳統(tǒng)方法提升明顯

與人為設(shè)定的動作相比,Retrieval Dexterity 在所有場景中平均減少了 38%  的操作步驟。與模擬的 “將所有物體抓起來并放開” 相比,該方法更是平均減少了 90%  的步驟數(shù)量。這種效率提升主要得益于多指靈巧手能夠直接與遮擋物進(jìn)行交互,并隨時移動它們,而不需要逐個移除。

ExDex:借力外部環(huán)境

抓取 “不可能” 物體

外部靈巧性解決物品超過機(jī)器人末端執(zhí)行器的最大開度問題

當(dāng)物體的底面尺寸超過機(jī)器人末端執(zhí)行器的最大開度時,傳統(tǒng)方法往往無法直接對物體進(jìn)行抓取,這種情況在商場等商業(yè)場景尤為常見。為了解決這一難題,靈初智能推出了  ExDex—— 一種基于外部靈巧性(extrinsic dexterity)抓取的創(chuàng)新解決方案

ExDex 能夠利用環(huán)境特征進(jìn)行非夾持式操作,憑借多指靈巧手的靈活性和操作能力,實現(xiàn)更豐富的環(huán)境交互。

強(qiáng)化學(xué)習(xí)帶來超越人類遙操作水平的靈巧操作

通過強(qiáng)化學(xué)習(xí),ExDex  涌現(xiàn)出自主制定策略的能力,借助周圍環(huán)境抓取那些無法直接抓取的物體。例如,機(jī)器人可以將物體先推到桌面邊緣或墻體邊緣,再利用這些環(huán)境特征完成抓取任務(wù)。這種操作通過傳統(tǒng)的遙操作方式幾乎無法實現(xiàn),充分體現(xiàn)了強(qiáng)化學(xué)習(xí)的強(qiáng)大優(yōu)勢。

在對數(shù)十種不同家居物品的大量實驗中,ExDex  驗證了其優(yōu)越的性能和對新物體的泛化能力,并成功將仿真訓(xùn)練的策略無縫遷移到真實機(jī)器人中,實現(xiàn)了從仿真到現(xiàn)實的高效過渡。

SafeVLA:人機(jī)安全交互的 “守護(hù)神”

當(dāng)下,具身智能機(jī)器人頻繁出圈,從春晚跳舞的 Unitree  人形機(jī)器人,到波蘭街頭遛機(jī)器狗的新奇場景,讓人看到人機(jī)交互的無限可能,但安全問題也不容忽視。視覺 - 語言 -  行動模型(VLAs)在革新機(jī)器人技術(shù)時,也藏著安全隱患。

左圖呈現(xiàn)了傳統(tǒng) VLA 模型在抓取任務(wù)中的三種典型不安全行為:1)對無關(guān)物體的嚴(yán)重?fù)p壞,2)目標(biāo)識別錯誤導(dǎo)致危險物體的誤用,以及  3)執(zhí)行指令時與危險物體發(fā)生交互。右圖通過導(dǎo)航路徑示例,進(jìn)一步展示了傳統(tǒng) VLA 在導(dǎo)航過程中的三種不安全行為

本周,北京大學(xué) PAIR - Lab 團(tuán)隊攜手靈初智能重磅推出了具身安全模型  SafeVLA,通過安全對齊,讓機(jī)器人在復(fù)雜場景安全高效執(zhí)行任務(wù),在對抗干擾場景中魯棒性極高

SafeVLA 把 “以人為本” 刻進(jìn)  DNA,不像傳統(tǒng)機(jī)器人只盯著任務(wù)完成它把人類安全放在首位。技術(shù)上,引入約束馬爾可夫決策過程(CMDP)范式,把現(xiàn)實安全約束融入仿真環(huán)境大規(guī)模采樣。SafeVLA  在安全性和任務(wù)執(zhí)行方面均取得突破性進(jìn)展,分別提升 83.58% 和  3.85%,充分證明了其在平衡安全與效率方面的卓越能力。

團(tuán)隊開發(fā)全新仿真環(huán)境 Safety -  CHORES集成安全約束功能,支持用戶自定義規(guī)則代碼還完全開源,直接給全球研究者和開發(fā)者送福利。而且,SafeVLA  在 12 個分布外(OOD)實驗里,面對光照、材質(zhì)變化和復(fù)雜環(huán)境擾動,始終穩(wěn)定發(fā)揮,實力碾壓其他模型。

標(biāo)簽:

責(zé)任編輯:北京

全網(wǎng)熱點