管理书籍排行榜,斗破苍穹续集

導(dǎo)航

當(dāng)前位置：首頁 > 百科 > 靈初智能發(fā)布端到端VLA模型Psi R0.5 僅需兩小時數(shù)據(jù)實現(xiàn)物品、場景全面泛化正文

靈初智能發(fā)布端到端VLA模型Psi R0.5 僅需兩小時數(shù)據(jù)實現(xiàn)物品、場景全面泛化

來源：千龍網(wǎng) 作者：湖北時間：2025-03-16 04:13:54

近日，靈初兩Figure 發(fā)布的發(fā)布端到端 VLA 具身大模型 Helix，采用分層架構(gòu)同時實現(xiàn)高頻控制和高泛化能力，端到端引起了業(yè)內(nèi)廣泛關(guān)注。模型面泛幾乎同期，僅需據(jù)實景全中國具身智能團(tuán)隊靈初智能發(fā)布了基于強(qiáng)化學(xué)習(xí)的時數(shù)增強(qiáng)版分層架構(gòu)端到端 VLA 模型 Psi R0.5，這距離靈初智能團(tuán)隊去年底發(fā)布的現(xiàn)物 Psi R0 僅 2 個月。

本次發(fā)布的品場新模型重大升級，對于復(fù)雜場景的靈初兩泛化性、靈巧性、發(fā)布CoT、端到端長程任務(wù)能力上均有顯著提升，模型面泛同時完成泛化抓取訓(xùn)練所需的僅需據(jù)實景全數(shù)據(jù)量僅需 Helix 數(shù)據(jù)量的 0.4%！在全球范圍內(nèi)實現(xiàn)了泛化靈巧操作與訓(xùn)練效率的時數(shù)雙重領(lǐng)先。

此外，現(xiàn)物靈初智能團(tuán)隊連發(fā)四篇高質(zhì)量論文，將團(tuán)隊在高效實現(xiàn)泛化抓取、堆疊場景的物品檢索、利用外部環(huán)境配合抓取、VLA 安全對齊方面的最新成果悉數(shù)公開，展現(xiàn)了中國團(tuán)隊在具身智能領(lǐng)域的強(qiáng)悍戰(zhàn)斗力。

Psi R0.5 路徑演進(jìn)圖

DexGraspVLA僅需兩小時靈巧手抓取數(shù)據(jù)

輕松實現(xiàn)物品、燈光、場景泛化并實現(xiàn)真正 CoT

DexGraspVLA 是首個用于靈巧手通用抓取的 VLA（Vision-Language-Action）框架，通過少量的訓(xùn)練，即刻在多變環(huán)境下智能涌現(xiàn)靈巧操作能力，能夠像人類一樣快速、準(zhǔn)確地拾取各種物品。

DexGraspVLA 是一個融合視覺，語言和動作的層次化框架：

· High-level Planner：高層規(guī)劃由預(yù)訓(xùn)練的大型視覺語言模型（VLM）實現(xiàn)，可理解多樣化指令、自主決定抓取策略。

· Low-level Controller：低層擴(kuò)散策略通過實時視覺反饋，閉環(huán)掌握目標(biāo)物體，智能涌現(xiàn)出靈巧操作能力。

整個框架的核心在于將多樣化的圖像輸入數(shù)據(jù)通過現(xiàn)有的 Foundation Model 轉(zhuǎn)換成 Domain-invariance 的表征，并端到端地訓(xùn)練下層控制模型。

DexGraspVLA 框架圖

從實驗結(jié)果看，靈初智能僅使用了約 2 小時的靈巧手抓取數(shù)據(jù)（2094 條軌跡 x 3.5 秒 / 條 ÷ 60 秒 / 分鐘 ÷ 60 分鐘 / 小時 ≈ 2 小時），泛化到上千種不同物體，位置，堆疊，燈光，背景下成功抓取，而這個數(shù)據(jù)量僅僅是 Figure 的 0.4%，數(shù)據(jù)利用效率提高 250 倍！

同時，DexGraspVLA 相比現(xiàn)有方案還具有幾項優(yōu)勢：

· 根據(jù)語言指令分辨出目標(biāo)物體，處理堆疊場景下的目標(biāo)物體的檢索并抓取

· 抓取速度快（所有視頻無加速，同類工作中節(jié)拍較快），閉環(huán)姿態(tài)矯正與重抓取能力（ReGrasp）

· 大腦具有 CoT 長程推理能力：自主推理抓取順序并將所有物體依次抓取

DexGraspVLA 展現(xiàn)出對光照變化、背景干擾和物體姿態(tài)的強(qiáng)大魯棒性和泛化性，讓機(jī)器人的靈巧抓取達(dá)到人類級別。

基于預(yù)訓(xùn)練的大模型：使用自然語言與人類交互，具有高智能的長程推理能力，能夠自主理解人類話語并推理任務(wù)。因此可以一次設(shè)定多個抓取目標(biāo)，通過 CoT 實現(xiàn)復(fù)雜流程下的自動分揀或清理。

DexGraspVLA 仍然會自動分析當(dāng)前姿態(tài)偏差，通過細(xì)微調(diào)整腕關(guān)節(jié)和手部角度重新嘗試抓取，實現(xiàn)非常魯棒且高效的抓取能力，達(dá)到極強(qiáng)的泛化能力。

Retrieval Dexterity

堆疊場景中的高效物體檢索策略

強(qiáng)化學(xué)習(xí)底層驅(qū)動，簡單 reward 涌現(xiàn)復(fù)雜動作

在大多數(shù)實際場景中，物品往往以無規(guī)則、堆疊的方式擺放。傳統(tǒng)方法要求機(jī)器人逐件搬開遮擋物，不僅耗時，還對機(jī)器人自身抓取能力提出了很高的要求。

為了解決這一難題，靈初智能開發(fā)了一套基于強(qiáng)化學(xué)習(xí)的物體檢索策略 ——Retrieval Dexterity，解決了堆疊場景中物體檢索識別效率低的問題。

Retrieval Dexterity 系統(tǒng)中未用真機(jī)數(shù)據(jù)，靈初團(tuán)隊沒有采用真機(jī)數(shù)據(jù)進(jìn)行訓(xùn)練，而是直接在仿真環(huán)境中通過強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練。通過在仿真環(huán)境中大規(guī)模生成復(fù)雜的堆疊場景，訓(xùn)練模型直至涌現(xiàn)出合適的檢索操作，隨后再將這些操作零樣本遷移至現(xiàn)實機(jī)器人和復(fù)雜環(huán)境中。

Retrieval Dexterity 框架圖

從雜亂堆疊物體中快速取出目標(biāo)物體

在超過 10 種不同形狀、大小的生活物品測試中，Retrieval Dexterity 展現(xiàn)出了優(yōu)秀的性能，不僅能夠高效完成訓(xùn)練過的物體的檢索任務(wù)，還能將檢索能力泛化到未見過的新物體上。

效率對比傳統(tǒng)方法提升明顯

與人為設(shè)定的動作相比，Retrieval Dexterity 在所有場景中平均減少了 38% 的操作步驟。與模擬的 “將所有物體抓起來并放開” 相比，該方法更是平均減少了 90% 的步驟數(shù)量。這種效率提升主要得益于多指靈巧手能夠直接與遮擋物進(jìn)行交互，并隨時移動它們，而不需要逐個移除。

ExDex：借力外部環(huán)境

抓取 “不可能” 物體

外部靈巧性解決物品超過機(jī)器人末端執(zhí)行器的最大開度問題

當(dāng)物體的底面尺寸超過機(jī)器人末端執(zhí)行器的最大開度時，傳統(tǒng)方法往往無法直接對物體進(jìn)行抓取，這種情況在商場等商業(yè)場景尤為常見。為了解決這一難題，靈初智能推出了 ExDex—— 一種基于外部靈巧性（extrinsic dexterity）抓取的創(chuàng)新解決方案。

ExDex 能夠利用環(huán)境特征進(jìn)行非夾持式操作，憑借多指靈巧手的靈活性和操作能力，實現(xiàn)更豐富的環(huán)境交互。

強(qiáng)化學(xué)習(xí)帶來超越人類遙操作水平的靈巧操作

通過強(qiáng)化學(xué)習(xí)，ExDex 涌現(xiàn)出自主制定策略的能力，借助周圍環(huán)境抓取那些無法直接抓取的物體。例如，機(jī)器人可以將物體先推到桌面邊緣或墻體邊緣，再利用這些環(huán)境特征完成抓取任務(wù)。這種操作通過傳統(tǒng)的遙操作方式幾乎無法實現(xiàn)，充分體現(xiàn)了強(qiáng)化學(xué)習(xí)的強(qiáng)大優(yōu)勢。

在對數(shù)十種不同家居物品的大量實驗中，ExDex 驗證了其優(yōu)越的性能和對新物體的泛化能力，并成功將仿真訓(xùn)練的策略無縫遷移到真實機(jī)器人中，實現(xiàn)了從仿真到現(xiàn)實的高效過渡。

SafeVLA：人機(jī)安全交互的 “守護(hù)神”

當(dāng)下，具身智能機(jī)器人頻繁出圈，從春晚跳舞的 Unitree 人形機(jī)器人，到波蘭街頭遛機(jī)器狗的新奇場景，讓人看到人機(jī)交互的無限可能，但安全問題也不容忽視。視覺 - 語言 - 行動模型（VLAs）在革新機(jī)器人技術(shù)時，也藏著安全隱患。

左圖呈現(xiàn)了傳統(tǒng) VLA 模型在抓取任務(wù)中的三種典型不安全行為：1）對無關(guān)物體的嚴(yán)重?fù)p壞，2）目標(biāo)識別錯誤導(dǎo)致危險物體的誤用，以及 3）執(zhí)行指令時與危險物體發(fā)生交互。右圖通過導(dǎo)航路徑示例，進(jìn)一步展示了傳統(tǒng) VLA 在導(dǎo)航過程中的三種不安全行為

本周，北京大學(xué) PAIR - Lab 團(tuán)隊攜手靈初智能重磅推出了具身安全模型 SafeVLA，通過安全對齊，讓機(jī)器人在復(fù)雜場景安全高效執(zhí)行任務(wù)，在對抗干擾場景中魯棒性極高。

SafeVLA 把 “以人為本” 刻進(jìn) DNA，不像傳統(tǒng)機(jī)器人只盯著任務(wù)完成，它把人類安全放在首位。技術(shù)上，引入約束馬爾可夫決策過程（CMDP）范式，把現(xiàn)實安全約束融入仿真環(huán)境大規(guī)模采樣。SafeVLA 在安全性和任務(wù)執(zhí)行方面均取得突破性進(jìn)展，分別提升 83.58% 和 3.85%，充分證明了其在平衡安全與效率方面的卓越能力。

團(tuán)隊開發(fā)全新仿真環(huán)境 Safety - CHORES，集成安全約束功能，支持用戶自定義規(guī)則，代碼還完全開源，直接給全球研究者和開發(fā)者送福利。而且，SafeVLA 在 12 個分布外（OOD）實驗里，面對光照、材質(zhì)變化和復(fù)雜環(huán)境擾動，始終穩(wěn)定發(fā)揮，實力碾壓其他模型。

標(biāo)簽：

責(zé)任編輯：北京