智元發佈一體化具身大小腦系統 GenieReasoner

新聞
HongKong
1
12:21 PM · Jan 04 ,2026

智元具身研究中心宣佈推出一體化大小腦系統:GenieReasoner。其聚焦於如何在一個一體化模型中,兼顧高層語義推理和底層精細控制,並開源了全面的基於機器人視角的具身大腦 benchmark—— ERIQ,支持相對應解耦地評測推理性能。

根據介紹,GenieReasoner的設計初衷是建立一套“Action as Language”的統一表達範式,在賦予動作序列大模型級的語義泛化能力的同時,突破離散化表徵在執行精度上的物理瓶頸。”改成“GenieReasoner的設計初衷是建立一套Action as Language的統一表達範式,並且在賦予動作序列大模型級的語義泛化能力的同時,突破離散化表徵在執行精度上的物理瓶頸。

智元具身研究中心研究發現,現有 VLA 模型在複雜場景中的性能波動,本質上源於模型過度依賴“視覺-動作”的表面統計相關性,而缺乏深層的具身推理(Embodied Reasoning)。然而,提升推理能力與保持執行精度之間往往存在競爭關係:傳統的“離散VLM主幹 + 連續動作頭”架構會因不同目標函數的數學衝突產生梯度干擾,導致模型在“邏輯泛化”與“執行精度”之間被迫取捨。為此,GenieReasoner架構從兩個維度重建了VLA範式:通過統一離散表徵消除梯度衝突,使用生成式解碼技術突破重構精度上限。

GenieReasoner架構:

  • 動作即語言:GenieReasoner 摒棄了“嫁接”思維,將連續的物理軌跡映射為一套緊湊的“離散動作詞表”。在模型看來,執行抓取動作與預測下一個文本 Token 具有同等的語義地位。
  • 共享梯度空間:通過將通用 VQA、具身推理數據與動作序列在同一離散空間進行聯合訓練,模型在單一梯度路徑下實現了認知與控制的同步優化。

ERIQ包含6k+高質量樣本,以單選題、是非題的形式呈現,且每個樣本都經過人工審核校驗。數據集場景覆蓋家居、工業、商超等100+真實場景。其四大核心類別包括:

  • 空間感知與定位(理解“左邊第二個”、“紅色的”)
  • 任務規劃與監測(長程任務的邏輯拆解)
  • 錯誤識別與恢復(意識到“手滑了”並重新嘗試)
  • 人機協作(讀懂人類的意圖暗示)

進一步,四大核心能力被拆解成15個細分維度的子能力(或子能力的組合),例如:

  • Success Detection聚焦於“任務完成性檢測”,評估模型“任務規劃+事件順序”的能力。
  • Task Grounding聚焦於“找到與任務相關目標”,評估模型“感知+任務規劃+場景理解”的能力。
  • Mistake Classification聚焦於“識別發生的錯誤類型”,評估模型“因果關係+異常識別”的能力。
  • Human Intent Understanding聚焦於“機器人理解用户意圖”,評估模型“學習與用户交互 +任務規劃”。

原始數據都來自於真機真實場景,超過100多種任務場景,其中家居35%,餐廳20%,商超20%,工業佔15%,辦公場景10%。在輸入模態的設計上,ERIQ旨在全面評估模型的多模態理解與推理能力,數據構成涵蓋了多種關鍵的輸入模態:主體由約53%的靜態單幀圖像構成,用於測試模型的基礎視覺感知能力;另有約27%的時序圖像數據,以考察模型對時序動態變化的理解;剩餘部分則由多幀圖像與文本交錯組成,評估模型對複雜場景的多步推理能力。

在後續實驗中發現: 在不同預訓練的對比下,ERIQ得分更高的VLM,在VLA性能測試中展現出更強的指令跟隨能力,得以論證具身VLM越強(腦子好),VLA越強(手越巧)。

智元方面表示,GenieReasoner 的發佈是其具身研究中心對具身大腦“智商”與小腦“身手”協同進化的一次初步探索。實驗結果表明,在統一離散空間內進行聯合訓練,不僅大幅提升了模型的泛化性與指令跟隨能力,更重要的是,它驗證了一套天然兼容Scaling Law的具身模型架構。

但在動作絕對精度和極長程任務的穩定性上,仍有巨大的優化空間。雖然通過提升數據的多樣性(Diversity)可以實現性能的量級增長,但在實際路徑中,如何在高通量數據 Scaling的同時確保數據的“高質量”與“低噪聲”,依然是行業待解的最優路徑難題。

“下一步,智元具身研究中心將從“邏輯深度”與“執行精度”兩個維度持續推進,並致力於實現具身大小腦、世界模型(World Model)與真機強化學習(Real-world RL)的閉環協同。通過在真實物理世界中的閉環交互與數據反哺,構建出真正具備常識推理與極限操作能力的通用基座模型。”

更多詳情可查看官方公告。

user avatar
0 位用戶收藏了這個故事!
收藏

發佈 評論

Some HTML is okay.