1. 本週概覽
DeepSeek在市佔率方面表現突出,份額增加顯著。同時,通義實驗室開源了GUI智能體MAI-UI,涵蓋從端側小模型到雲端大模型的多個尺寸版本。此外,DeepSeek提出了名為「mHC(流形約束超連接)」的新架構,能夠在增加極少訓練時間開銷的情況下實現顯著性能提升。
2. 重點關注事件
- 通義實驗室於12月26日開源GUI智能體MAI-UI,提供從2B端側小模型到235B雲端大模型四個尺寸版本,覆蓋全場景部署需求,論文地址:https://arxiv.org/abs/2512.22047
- DeepSeek於12月31日提出名為「mHC(流形約束超連接)」的新架構,在27B參數模型上,僅增加約6.7%的訓練時間開銷,即可實現顯著性能提升,論文地址:https://arxiv.org/abs/2512.24880
3. 榜單變化
- OpenRouter模型調用量變化:Grok Code Fast 1、Claude Sonnet 4.5保持前兩位;小米發佈的MiMo-V2-Flash (free)從第4名上升至第3名;編程調用量方面,Grok Code Fast 1保持第1,Devstral 2 2512 (free)上升6名至第2位,MiMo-V2-Flash新上榜位列第8。
- OpenRouter公司市佔率變化:Google保持第1位,DeepSeek份額上升3.7%(從9.6%增至13.3%),位列榜單第2名;xAI市佔率下降3%(從14.4%降至11.4%),OpenAI市佔率下降2.5%(從10.5%降至8.0%);小米、MistralAI、Qwen、z-AI保持第6-9名。
- 大語言模型Text Arena榜單:GLM-4.7新晉榜單第17名,模型評分基於預發佈測試,可能會隨公開發布後社區反饋和投票的演變而發生變化。
- 編程能力WebDev Arena榜單:minimax-m2.1-preview新晉榜單第6名,緊跟gemini-3-flash之後,超過glm-4.7,評分基於預發佈測試。
- 圖像編輯能力Artificial Analysis Image Editing Leaderboard:Wan 2.6新晉榜單第7名,排名在Nano Banana之後。
4. OpenRouter排行榜
| 測評類型 | 第一名 | 第二名 | 第三名 |
|---|---|---|---|
| 模型調用量 | Grok Code Fast 1 | Claude Sonnet 4.5 | MiMo-V2-Flash (free) |
| 公司市佔率 | DeepSeek | Anthropic | |
| 編程模型調用量 | Grok Code Fast 1 | Devstral 2 2512 (free) | Gemini 3 Flash Preview |
各公司按不同能力領域排名彙總
| 測評類型 | 領先公司 |
|---|---|
| 大語言模型 Text Arena | Google、xAI、Anthropic、OpenAI、百度、智譜、阿里巴巴、月之暗面 |
| 編程能力 LMArena | Anthropic、OpenAI、Google |
| 編程能力 LiveCodeBench | OpenAI、Anthropic、Google |
| 代碼工程任務能力 SWE-benchLite | OpenAI、Google、阿里巴巴、月之暗面等 |
| 圖像編輯和生成能力 Image Edit Arena | OpenAI、Google、字節、Reve |
| 文生圖能力 Text-to-Image Arena | OpenAI、Google、Black Forest Labs、騰訊、字節 |
| 圖像編輯和生成能力 Image Editing Leaderboard | OpenAI、Google、字節、Black Forest Labs、阿里巴巴、Reve |
| 文生圖能力 Text to Image Leaderboard | OpenAI、Google、Black Forest Labs、字節、ImagineArt |
| GPQA 榜單 | OpenAI、Google、xAI、Anthropic、阿里巴巴 |
| FrontierMath 榜單 | OpenAI、Google、月之暗面、Anthropic、xAI |
| Humanity's Last Exam 榜單 | Google、OpenAI、Anthropic |
| GAIA 榜單 | Suzhou AI Lab&Shuqian Tech、Microsoft AI Asia -Ads、LR AILab of Lenovo CTO Org等 |
關注我,第一時間掌握更多AI前沿資訊!