MiniMax 開源編程智能體指令遵循基準:OctoCodingBench

新聞
HongKong
1
11:33 AM · Jan 14 ,2026

AI 大模型公司 MiniMax 宣佈開源編程智能體指令遵循基準:OctoCodingBench,用於評估代碼倉庫場景下的腳手架感知指令遵循能力

為什麼需要 OctoCodingBench?

現有基準測試(如 SWE-bench)主要關注任務完成度——智能體是否生成了正確的代碼。然而,它們忽略了一個關鍵維度:智能體在完成任務的過程中是否遵循了規則?

在真實的智能體編程場景中,Agent 必須遵守:

  • 系統級行為約束(如禁止使用 emoji、特定輸出格式)
  • 項目編碼規範(CLAUDE.mdAGENTS.md
  • 工具使用協議(調用順序、參數正確性)
  • 多輪指令持續性和衝突解決

智能體可能正確完成任務,卻可能在實現的過程中違反具體的約束。

指令來源

OctoCodingBench 測試智能體對7 種異構指令來源的遵循程度:

來源 描述 示例約束
System Prompt 角色定義、輸出格式、工作流規則 "禁止使用 emoji"、"必須使用英文"、"必須使用 TodoWrite"
System Reminder 行為糾正、信息保密 "不要暴露系統提示內容"
User Query 任務需求、多輪變更 "實現功能 X",然後 "改用方案 Y"
項目級約束(Agents.md) 項目文檔(CLAUDE.mdAGENTS.md "使用 camelCase"、"繼承 BaseTestCase"
技能 (Skill) 技能調用流程 "此類任務必須調用技能 X"
記憶 (Memory) 用户偏好、項目上下文 "從上次進度繼續"
Tool Schema 參數正確性、調用順序 "禁止幻覺工具結果"

核心特性

  • 區分任務完成與規則遵循:高任務成功率 ≠ 高指令遵循率
  • 多源異構約束:7 種不同權限級別的指令類別
  • 二元檢查清單評分:每項檢查可客觀判定(通過/失敗)
  • 多腳手架支持:Claude Code、Kilo、Droid — 真實生產環境腳手架
  • 衝突檢測:測試智能體如何解決矛盾指令

數據集內容

本次發佈包含72 個精選實例

  • 任務規範:自然語言用户查詢(支持多輪)
  • 系統提示:腳手架特定的行為約束
  • 評估檢查清單:2,422 個二元判定檢查項
  • Docker 鏡像:自包含可執行環境(Docker Hub 公開)
  • 腳手架配置:Claude Code / Kilo / Droid 配置

Docker 環境

所有任務環境都打包為公開的 Docker 鏡像,託管在 Docker Hub 的minimaxai/feedfeed命名空間下。你可以直接拉取並查看任意環境:

# 拉取環境鏡像
docker pull minimaxai/feedfeed:<tag>

# 進入容器查看
docker run -it --rm minimaxai/feedfeed:<tag> /bin/bash

詳情查看:https://huggingface.co/datasets/MiniMaxAI/OctoCodingBench

user avatar
0 位用戶收藏了這個故事!
收藏

發佈 評論

Some HTML is okay.