大模型榜單週報（2026-01-04）詳情 - 人工智能,llm KAI智習博客

1. 本週概覽

DeepSeek在市佔率方面表現突出，份額增加顯著。同時，通義實驗室開源了GUI智能體MAI-UI，涵蓋從端側小模型到雲端大模型的多個尺寸版本。此外，DeepSeek提出了名為「mHC（流形約束超連接）」的新架構，能夠在增加極少訓練時間開銷的情況下實現顯著性能提升。

通義實驗室於12月26日開源GUI智能體MAI-UI，提供從2B端側小模型到235B雲端大模型四個尺寸版本，覆蓋全場景部署需求，論文地址：https://arxiv.org/abs/2512.22047
DeepSeek於12月31日提出名為「mHC（流形約束超連接）」的新架構，在27B參數模型上，僅增加約6.7%的訓練時間開銷，即可實現顯著性能提升，論文地址：https://arxiv.org/abs/2512.24880

OpenRouter模型調用量變化：Grok Code Fast 1、Claude Sonnet 4.5保持前兩位；小米發佈的MiMo-V2-Flash (free)從第4名上升至第3名；編程調用量方面，Grok Code Fast 1保持第1，Devstral 2 2512 (free)上升6名至第2位，MiMo-V2-Flash新上榜位列第8。
OpenRouter公司市佔率變化：Google保持第1位，DeepSeek份額上升3.7%（從9.6%增至13.3%），位列榜單第2名；xAI市佔率下降3%（從14.4%降至11.4%），OpenAI市佔率下降2.5%（從10.5%降至8.0%）；小米、MistralAI、Qwen、z-AI保持第6-9名。
大語言模型Text Arena榜單：GLM-4.7新晉榜單第17名，模型評分基於預發佈測試，可能會隨公開發布後社區反饋和投票的演變而發生變化。
編程能力WebDev Arena榜單：minimax-m2.1-preview新晉榜單第6名，緊跟gemini-3-flash之後，超過glm-4.7，評分基於預發佈測試。
圖像編輯能力Artificial Analysis Image Editing Leaderboard：Wan 2.6新晉榜單第7名，排名在Nano Banana之後。

測評類型	領先公司
大語言模型 Text Arena	Google、xAI、Anthropic、OpenAI、百度、智譜、阿里巴巴、月之暗面
編程能力 LMArena	Anthropic、OpenAI、Google
編程能力 LiveCodeBench	OpenAI、Anthropic、Google
代碼工程任務能力 SWE-benchLite	OpenAI、Google、阿里巴巴、月之暗面等
圖像編輯和生成能力 Image Edit Arena	OpenAI、Google、字節、Reve
文生圖能力 Text-to-Image Arena	OpenAI、Google、Black Forest Labs、騰訊、字節
圖像編輯和生成能力 Image Editing Leaderboard	OpenAI、Google、字節、Black Forest Labs、阿里巴巴、Reve
文生圖能力 Text to Image Leaderboard	OpenAI、Google、Black Forest Labs、字節、ImagineArt
GPQA 榜單	OpenAI、Google、xAI、Anthropic、阿里巴巴
FrontierMath 榜單	OpenAI、Google、月之暗面、Anthropic、xAI
Humanity's Last Exam 榜單	Google、OpenAI、Anthropic
GAIA 榜單	Suzhou AI Lab&Shuqian Tech、Microsoft AI Asia -Ads、LR AILab of Lenovo CTO Org等

關注我，第一時間掌握更多AI前沿資訊！