阿里巴巴未來生活實驗室與智能引擎、數據技術團隊正式發佈智能體模型ROME-V0.1(ROME is Obviously an Agentic ModEl)。
在多項主流 Agent 基準測試中,IFLow-CLI + ROME-V0.1在同規模開源模型中取得了領先結果,並在部分榜單上接近 100B+ 參數規模模型——例如,在 Terminal-Bench 2.0 上達到 24.72% 的成功率,在 SWE-bench Verified 上取得 57.40% 的任務完成率。
ROME-V0.1 是面向真實執行場景訓練的智能體模型,其並非針對某些單一評測的優化,而是建立在大規模真實環境交互、端到端執行閉環訓練以及面向長鏈任務的強化學習範式之上。得益於完善的訓練系統基建--ALE(Agentic Learning Ecosystem),ROME-V0.1 在 超過百萬數量級別的可驗證交互軌跡上完成訓練。
詳細介紹查看:https://mp.weixin.qq.com/s/9qM6iDu9yeagJa-Z9BFtcQ