1.    簡智機器人開源行業最大規模的無本體具身數據集

1 月 5 日,簡智新創(北京)機器人科技有限公司(以下簡稱「簡智機器人」)正式開源「RealOmni-Open DataSet」無本體具身數據集,數據集總計包含超過 10,000 小時、百萬條以上的真實操作記錄,是目前行業已知數據規模最大且每一項技能數據量最多的無本體開源數據集。

當前,簡智機器人能夠實現每日萬小時以上級別的持續數據採集與處理,不斷為數據集註入鮮度,並保障了其持續擴展的能力。

簡智機器人專注於通用具身智能全鏈路解決方案,為行業提供標準化、自動化的數據流基礎設施服務。近日,簡智機器人完成第三輪融資,成為具身智能數據基建細分賽道融資進展最快的企業。

「RealOmni」屬於無本體具身數據集,這類數據集的核心是將數據採集的源頭從「機器人」轉移到了「人」,採集場景多,數據真實性高。傳統數據集需要工作人員操作機器人,依賴機器人本體在特定環境(如實驗室等)中運行獲取數據,場景與機器人傳感器性能受限、且數據維度少、精準度低。而無本體數據集的採集不依賴於特定機器人硬件,工作人員通過穿戴 GenDas 無感設備,直接在真實環境中記錄人類的操作過程,採集多維度、多場景下的實際操作數據(高精度動作軌跡、觸覺反饋與視覺場景等)。

本次開源的「RealOmni」數據集覆蓋場景廣、單技能數據累計深度高、模態信息豐富,能夠全方位滿足模型多維度感知訓練需求。其中,「RealOmni」單技能數據累計深度遠超傳統碎片化數據,確保單任務至少具備萬條 clips 以上累計深度。同時,在數據集中,長程任務比例超過 99.2% 以上,完整記錄了精細化任務的操作全過程,為模型提供了真實、連貫的行為範本。該數據集共覆蓋 10 大場景任務、超過 30 項技能。首批開源數據包括 4 個場景集、12 項生活技能,均為雙手協同、長程任務,涉及疊衣、拉拉鍊、桌面雜物整理、穿鞋帶等高頻生活場景。同時,該數據集收錄了超過 3000 個真實家庭場景的自然操作,避免單一場景、動作或目標的簡單重複,從而確保在單一技能下具備優秀的場景泛化能力。並且該數據集還整合了超大 FOV 原始圖像、軌跡、語意標註、關節動作等多種模態信息,數據精度、質量行業領先。

最大無本體具身數據集開源!簡智機器人聯合百度百舸,加速具身智能應用落地_數據

2.    百度百舸第一時間上線「RealOmni」數據集,加速具身智能應用落地

百度智能雲已經服務了包括北京、上海、浙江、廣東創新中心在內的具身智能國家隊,併為產業鏈上超過 20 家重點企業提供強大支撐。其中,百度百舸 · AI 計算平台為眾多具身智能場景客户提供了基於「訓推加速 + 一站式開發平台 + 全棧工具鏈」綜合能力的 AI Infra 解決方案。

簡智機器人秉持 「具身智能源於人、迴歸人」 的核心理念,將「RealOmni」數據集第一時間同步在百度百舸平台,便於具身智能行業夥伴快速將數據集應用於業務中。

2.1    百度百舸「RealOmni」數據集使用指南

百度百舸平台第一時間上線「RealOmni」數據集,同時在百舸平台內還整合了眾多開源社區的熱門公共數據集,供用户直接下載使用。您可將下載後的「RealOmni」數據集轉儲至自定義 BOS 類型數據集,快速啓動模型訓練與驗證工作,助力加速模型落地。

創建「目標數據集」

在百度百舸控制枱頁面,進入「數據集」菜單,在「自定義數據集」頁面點擊「創建數據集」,填寫數據集相關配置信息,完成「目標數據集」的創建。

最大無本體具身數據集開源!簡智機器人聯合百度百舸,加速具身智能應用落地_數據_02

最大無本體具身數據集開源!簡智機器人聯合百度百舸,加速具身智能應用落地_百度_03

下載「RealOmni」數據集到「目標數據集」

進入「數據集」菜單,進入「公共數據集」列表,選擇下載的數據集,並進入數據集版本列表。

最大無本體具身數據集開源!簡智機器人聯合百度百舸,加速具身智能應用落地_數據_04

最大無本體具身數據集開源!簡智機器人聯合百度百舸,加速具身智能應用落地_數據集_05

最大無本體具身數據集開源!簡智機器人聯合百度百舸,加速具身智能應用落地_百度_06

點擊「下載」,將選中的「RealOmni」保存到「目標數據集」中。

最大無本體具身數據集開源!簡智機器人聯合百度百舸,加速具身智能應用落地_百度_07

最大無本體具身數據集開源!簡智機器人聯合百度百舸,加速具身智能應用落地_數據集_08

使用數據集創建業務負載

數據集下載成功後,該數據集可用於您在百度百舸平台開展各項相關操作,包括創建分佈式訓練任務、創建開發機實例、部署在線服務等。以下以創建分佈式訓練任務為例:

在百舸控制枱的左側菜單選擇「分佈式訓練任務」,在頁面中點擊「創建任務」。

最大無本體具身數據集開源!簡智機器人聯合百度百舸,加速具身智能應用落地_數據集_09

選中需要使用的資源隊列後,在「數據集掛載」表單項下選擇「添加數據集掛載」並選擇「目標數據集」,快速開啓模型訓練。

最大無本體具身數據集開源!簡智機器人聯合百度百舸,加速具身智能應用落地_數據_10

3.    百度百舸:為具身智能研發打造超級加速引擎

百度百舸提供的 AI Infra 解決方案,為具身智能企業提供從研發到部署的全週期加速支持,全面提升各類模型的訓練與迭代效率。

最大無本體具身數據集開源!簡智機器人聯合百度百舸,加速具身智能應用落地_百度_11

訓推加速:通過自研 AI 加速套件 AIAK 進行深度工程優化,針對具身智能主流模型提供顯著性能提升,其中 VLM 模型訓練性能最高提升 40%,WM 模型訓練與推理性能分別提升 20% 和 36% 以上。

一站式開發平台:提供覆蓋「開發-訓練-仿真-部署」研發全週期的一站式服務,支持雲端高效開發、萬卡集羣 99.5% 有效訓練時長、主流仿真環境一鍵部署及本地推理快速驗證。

全棧工具鏈:作為國內第一家全面適配 RDT、π0、 π0.5、GR00T N1.5 等主流開源 VLA 模型的雲平台,提供開箱即用的預置訓練模版、高質量仿真數據集及數據轉換工具,大幅降低技術探索門檻,讓開發者能快速啓動訓練與驗證。


4.    總結

全球具身智能賽道迎來快速發展期,高質量數據開源與領先的 AI 基礎設施等成為驅動行業突破的重要力量。百度百舸正攜手具身智能產業的廣大生態夥伴,共建開放、協同的產業生態,共同加速具身智能機器人的應用落地,推動機器人真正走進千行百業、千家萬户。

「RealOmni」數據集合下載地址:https://huggingface.co/datasets/genrobot2025/10Kh-RealOmin-OpenData