編者按： 如果你正在為邊緣計算、本地部署或資源受限場景尋找高效的語言模型解決方案，你是否曾困惑：在眾多小型語言模型（SLM）中，哪一個才是微調的最佳起點？是否真的存在"小而強"的模型，能在微調後媲美甚至超越規模大數十倍的教師模型？

近期，distil labs 團隊進行了一項嚴謹的基準研究，或許能為你提供數據驅動的答案。他們在 8 類任務（涵蓋分類、信息抽取、開卷與閉卷問答）上，對 12 個主流小型模型（包括 Qwen3、Llama、Gemma、Granite、SmolLM 等系列）進行了統一微調與評估，並對比了其與 120B 參數教師模型（GPT-OSS-120B）的性能差異。

作者 | Distil Labs

編譯 | 嶽揚

01 TL;DR

經過微調的小型語言模型（SLM）可以勝過規模大得多的模型：微調後的 Qwen3-4B 在 8 項基準測試中的 7 項上表現能夠超越或戰平 GPT-OSS-120B（一個比它模型規模大 30 倍的教師模型），剩下的一項差距也不到 3 個百分點。在 SQuAD 2.0 數據集上，微調後的學生模型甚至比教師模型高出 19 分。這意味着你只需極低的成本，就能在自己的硬件上實現前沿模型級別的準確率。

微調後性能最佳的模型：Qwen3 系列模型在微調後始終表現最強，其中 4B 版本整體表現最優。如果你的目標是在特定任務上獲得最高準確率，Qwen3-4B 就是你的首選。

最具可微調性（🐟-ble）（微調收益最大）：小型模型從微調中獲得的提升遠超大型模型。 如果你受限於使用非常小的模型（1B--3B），也不必擔心 ------ 它們能從微調中獲益最多，能夠大幅縮小與更大模型之間的性能差距。

02 引言

如果你正在構建需要在設備端、本地或邊緣側運行的 AI 應用，你很可能問過自己：我該微調哪個小型語言模型（SLM）？目前 SLM 領域選擇眾多（Qwen、Llama、Gemma、Granite、SmolLM），每個系列都提供多種模型規模的版本。選錯基礎模型可能意味着有數週時間在浪費計算資源，或者得到的模型始終無法達到生產質量要求。

我們進行了一項系統的基準測試，用數據來回答這個問題。藉助 distil labs 平台，我們在 8 個不同的任務上（分類、信息抽取、開卷問答、閉卷問答）微調了 12 個模型，然後將它們的性能相互比較，並與用於生成合成訓練數據的教師大模型進行對比。

本文回答了四個實際問題：

哪個模型在微調後效果最好？
哪個模型最具可微調性？（即微調後提升最大）
哪個模型的基礎性能最強？（即未經微調前）
我們表現最好的學生模型，真的能媲美教師模型嗎？

03 實驗方法

我們評估了以下模型：

Qwen3 系列：Qwen3-8B、Qwen3-4B-Instruct-2507、Qwen3-1.7B、Qwen3-0.6B。注意，我們關閉了該系列的"thinking"功能，以保證實驗的公平。
Llama 系列：Llama-3.1-8B-Instruct、Llama-3.2-3B-Instruct、Llama-3.2-1B-Instruct
SmolLM2 系列：SmolLM2-1.7B-Instruct、SmolLM2-135M-Instruct
Gemma 系列：gemma-3-1b-it、gemma-3-270m-it
Granite：granite-3.3-8b-instruct

針對每個模型，我們測量了：

Base score：僅使用提示詞（prompting）的小樣本（few-shot）場景下的性能
Finetuned score：在由我們的教師模型（GPT-OSS 120B）生成的合成數據上微調後的性能

我們的 8 項基準測試涵蓋分類（TREC、Banking77、Ecommerce、Mental Health）、文檔理解 （docs）以及問答任務（HotpotQA、Roman Empire QA、SQuAD 2.0）。

為了實現公平測量，我們分別計算了每個模型在各個基準測試上的排名，然後計算所有任務上的平均排名，並以 95% 置信區間作為誤差棒（error bars）繪製在圖中。平均排名越低，表示整體性能越好。

04 問題一：哪個模型在微調後效果最好？

冠軍：Qwen3-4B-Instruct-2507（平均排名：2.25）

Qwen3 系列佔據了排行榜前列，其中 Qwen3-4B-Instruct-2507 摘得桂冠。值得注意的是，這款 4B 模型的表現甚至超過了更大的 Qwen3-8B，這表明在蒸餾任務中，Qwen3 的較新版本（2025 年 7 月 25 日更新的版本）比之前的 8B SLM 效果更好。

核心結論：如果你希望獲得效果最好的微調模型，並且擁有支持約 4B 參數規模模型微調的 GPU 顯存，那麼 Qwen3-4B-Instruct-2507 是你的首選。

05 問題二：哪個模型最具可微調性？（即微調後提升最大）

冠軍: Llama-3.2-1B-Instruct（平均排名：3.44）

這裏我們測量的是可微調性（tunability） ------ 即從基礎性能到微調後性能的提升幅度（finetuned_score - base_score）。一個高度可微調的模型初始表現可能較弱，但經過微調後提升顯著。

有趣的是，可微調性排名與模型大小的排序正好相反。像 Llama-3.2-1B 和 Qwen3-0.6B 這樣的小型模型，從微調中獲得的提升最大。而規模最大的模型（如 Qwen3-8B、granite-3.3-8b）在可微調性排名中接近墊底 ------ 這並非因為它們表現差，而是因為它們起點相對較高，進步空間相對有限。

核心結論：如果你受限於使用極小的模型（<2B 參數），不必灰心。這些模型從微調中獲益最大，並且能夠顯著縮小與更大模型之間的性能差距。

06 問題三：哪個模型的基礎性能最強？（即未經微調前）

冠軍: Qwen3-8B (平均排名: 1.75)

在未經任何微調的情況下，哪個模型開箱即用的表現最好？

正如預期，基礎性能與模型大小呈正相關。8B 模型佔據了榜首位置，其中 Qwen3-8B 在所有基準測試中都展現出非常穩定的性能（標準差最低）。

核心結論：如果你需要在不進行微調的情況下在零樣本/小樣本場景下也獲得較優的性能，大模型仍是你的最佳選擇。但請記住 ------ 經過微調後，這種優勢會減弱。

07 問題四：我們表現最好的學生模型，真的能媲美教師模型嗎？

是的。Qwen3-4B-Instruct-2507 在 8 項基準測試中的 7 項上達到或超越了教師模型。

經過微調的 4B 學生模型在 6 項基準測試上超越了 120B+ 參數的教師模型，在 1 項（HotpotQA）上持平，僅在 1 項（Banking77）上略微落後（差距在誤差範圍內）。提升最顯著的是 SQuAD 2.0 閉卷問答任務，學生模型比教師模型高出 19 個百分點 ------ 這充分證明，微調比單純依賴提示詞（prompting）能更有效地將領域知識注入模型。

核心結論：一個經過適當微調的 4B 參數模型，可以媲美甚至超越規模達其 30 倍的模型。這意味着推理成本可降低約 30 倍，並且能夠完全在本地部署運行。

08 實用建議

基於我們的基準測試結果，以下是選擇基礎模型的建議：

09 後續我們將進行的工作

本次基準測試只是一個起點，我們正在積極努力讓這些結果更加可靠：

評估更多模型：SLM 領域發展迅速。我們計劃在 Qwen3.5、Phi-4 和 Mistral 系列等新模型版本發佈後及時納入評測。
增加運行輪次：目前我們的結果基於有限次數的運行取平均。我們將為每項基準測試增加更多運行輪次，以縮小置信區間，確保排名具有統計可靠性。
擴展基準測試覆蓋範圍：我們希望納入更多任務類型，如文本摘要、代碼生成和多輪對話，從而更全面地反映模型能力。

10 訓練細節

每個模型都在使用我們蒸餾流程生成的合成數據進行微調（有關數據合成過程的詳細信息，請參見《Small Expert Agents from 10 Examples》[1]）。針對每個基準測試，我們使用教師模型（GPTOss-120B）生成了 10,000 條訓練樣本。

微調採用 distil labs 的默認配置[2]：訓練 4 個 epoch，學習率 5e-5，使用線性學習率調度器，以及 rank 為 64 的 LoRA。

所有模型均使用完全相同的超參數進行訓練。評估在訓練和合成數據生成過程中均未接觸過的預留測試集上進行。

11 結論

並非所有小型模型的性能都差不多，但經過微調後，它們之間的差距會大幅縮小。我們的基準測試表明，Qwen3-4B-Instruct-2507 在整體微調性能上表現最佳，不僅能媲美 120B+ 參數的教師模型，還能在單塊消費級 GPU 上部署運行。在資源極度受限的環境中，像 Llama-3.2-1B 這樣的小模型展現出卓越的可微調性，能夠大幅縮小與大模型的性能差距。

核心結論：微調比基礎模型的選擇更重要。一個經過良好微調的 1B 模型，可以勝過僅靠提示詞（prompting）驅動的 8B 模型。

END

本期互動內容 🍻

❓你在微調小型語言模型時，最看重的是"開箱即用的強基礎能力"，還是"微調後巨大的提升空間"？為什麼？

文中鏈接

[1]https://www.distillabs.ai/blog/small-expert-agents-from-10-examples

[2]https://docs.distillabs.ai/how-to/input-preparation/config

原文鏈接：

https://www.distillabs.ai/blog/we-benchmarked-12-small-language-models-across-8-tasks-to-find-the-best-base-model-for-fine-tuning

微調後的 Qwen3-4B 在多項基準測試上戰平或勝過 GPT-OSS-120B

01 TL;DR

02 引言

03 實驗方法

04 問題一：哪個模型在微調後效果最好？

05 問題二：哪個模型最具可微調性？（即微調後提升最大）

06 問題三：哪個模型的基礎性能最強？（即未經微調前）

07 問題四：我們表現最好的學生模型，真的能媲美教師模型嗎？

08 實用建議

09 後續我們將進行的工作

10 訓練細節

11 結論

發佈評論

Product

Company

Support

Company

微調後的 Qwen3-4B 在多項基準測試上戰平或勝過 GPT-OSS-120B

01 TL;DR

02 引言

03 實驗方法

04 問題一：哪個模型在微調後效果最好？

05 問題二：哪個模型最具可微調性？（即微調後提升最大）

06 問題三：哪個模型的基礎性能最強？（即未經微調前）

07 問題四：我們表現最好的學生模型，真的能媲美教師模型嗎？

08 實用建議

09 後續我們將進行的工作

10 訓練細節

11 結論

發佈 評論

發佈評論