1. 本週概覽

DeepSeek在市佔率方面表現突出,份額增加顯著。同時,通義實驗室開源了GUI智能體MAI-UI,涵蓋從端側小模型到雲端大模型的多個尺寸版本。此外,DeepSeek提出了名為「mHC(流形約束超連接)」的新架構,能夠在增加極少訓練時間開銷的情況下實現顯著性能提升。

2. 重點關注事件

  • 通義實驗室於12月26日開源GUI智能體MAI-UI,提供從2B端側小模型到235B雲端大模型四個尺寸版本,覆蓋全場景部署需求,論文地址:https://arxiv.org/abs/2512.22047
  • DeepSeek於12月31日提出名為「mHC(流形約束超連接)」的新架構,在27B參數模型上,僅增加約6.7%的訓練時間開銷,即可實現顯著性能提升,論文地址:https://arxiv.org/abs/2512.24880

3. 榜單變化

  • OpenRouter模型調用量變化:Grok Code Fast 1、Claude Sonnet 4.5保持前兩位;小米發佈的MiMo-V2-Flash (free)從第4名上升至第3名;編程調用量方面,Grok Code Fast 1保持第1,Devstral 2 2512 (free)上升6名至第2位,MiMo-V2-Flash新上榜位列第8。
  • OpenRouter公司市佔率變化:Google保持第1位,DeepSeek份額上升3.7%(從9.6%增至13.3%),位列榜單第2名;xAI市佔率下降3%(從14.4%降至11.4%),OpenAI市佔率下降2.5%(從10.5%降至8.0%);小米、MistralAI、Qwen、z-AI保持第6-9名。
  • 大語言模型Text Arena榜單:GLM-4.7新晉榜單第17名,模型評分基於預發佈測試,可能會隨公開發布後社區反饋和投票的演變而發生變化。
  • 編程能力WebDev Arena榜單:minimax-m2.1-preview新晉榜單第6名,緊跟gemini-3-flash之後,超過glm-4.7,評分基於預發佈測試。
  • 圖像編輯能力Artificial Analysis Image Editing Leaderboard:Wan 2.6新晉榜單第7名,排名在Nano Banana之後。

4. OpenRouter排行榜

測評類型 第一名 第二名 第三名
模型調用量 Grok Code Fast 1 Claude Sonnet 4.5 MiMo-V2-Flash (free)
公司市佔率 Google DeepSeek Anthropic
編程模型調用量 Grok Code Fast 1 Devstral 2 2512 (free) Gemini 3 Flash Preview

各公司按不同能力領域排名彙總

測評類型 領先公司
大語言模型 Text Arena Google、xAI、Anthropic、OpenAI、百度、智譜、阿里巴巴、月之暗面
編程能力 LMArena Anthropic、OpenAI、Google
編程能力 LiveCodeBench OpenAI、Anthropic、Google
代碼工程任務能力 SWE-benchLite OpenAI、Google、阿里巴巴、月之暗面等
圖像編輯和生成能力 Image Edit Arena OpenAI、Google、字節、Reve
文生圖能力 Text-to-Image Arena OpenAI、Google、Black Forest Labs、騰訊、字節
圖像編輯和生成能力 Image Editing Leaderboard OpenAI、Google、字節、Black Forest Labs、阿里巴巴、Reve
文生圖能力 Text to Image Leaderboard OpenAI、Google、Black Forest Labs、字節、ImagineArt
GPQA 榜單 OpenAI、Google、xAI、Anthropic、阿里巴巴
FrontierMath 榜單 OpenAI、Google、月之暗面、Anthropic、xAI
Humanity's Last Exam 榜單 Google、OpenAI、Anthropic
GAIA 榜單 Suzhou AI Lab&Shuqian Tech、Microsoft AI Asia -Ads、LR AILab of Lenovo CTO Org等

關注我,第一時間掌握更多AI前沿資訊!