一份非常全面的機器學習分類與迴歸算法的評估指標彙總詳情 - 分類,迴歸,數據挖掘,召回率,過擬合,JavaScript,前端開發 mob64ca1409970a 博客

文章目錄

一、常用的分類與迴歸算法

1. 常用分類算法
1.2 常用迴歸算法

二、分類模型評價指標

1. 混淆矩陣（Confusion Matrix）
2. 準確率（Accuracy）

2.1 核心定義
2.2 計算公式
2.3 關鍵特點
2.4 適用場景

3. 精確率（Precision）

3.1 核心定義
3.2 計算公式
3.3 關鍵特點
3.4 適用場景

4. 召回率（Recall）

4.1 核心定義
4.2 計算公式
4.3 關鍵特點
4.4 適用場景
4.5 精確率與召回率的權衡

5. F1分數（F1-Score）

5.1 核心定義
5.2 計算公式
5.3 關鍵特點
5.4 適用場景

6. ROC曲線與AUC值

6.1 ROC曲線（Receiver Operating Characteristic Curve）

6.1.1 核心定義
6.1.2 關鍵指標推導
6.1.3 曲線繪製邏輯
6.1.4 曲線解讀

6.2 AUC值（Area Under ROC Curve）

6.2.1 核心定義
6.2.2 數值解讀
6.2.3 適用場景

6.2.4 優勢總結

三、迴歸模型評價指標

1. 絕對誤差與相對誤差

1.1 絕對誤差（Absolute Error, AE）

1.1.1 核心定義
1.1.2 計算公式
1.1.3 特點與應用

1.2 相對誤差（Relative Error, RE）

1.2.1 核心定義
1.2.2 計算公式
1.2.3 特點與應用

2. 平均絕對誤差（Mean Absolute Error, MAE）

2.1 核心定義
2.2 計算公式
2.3 關鍵特點
2.4 適用場景

3. 均方誤差（Mean Squared Error, MSE）

3.1 核心定義
3.2 計算公式
3.3 關鍵特點
3.4 適用場景

4. 均方根誤差（Root Mean Squared Error, RMSE）

4.1 核心定義
4.2 計算公式
4.3 關鍵特點
4.4 適用場景

5. 平均絕對百分誤差（Mean Absolute Percentage Error, MAPE）

5.1 核心定義
5.2 計算公式
5.3 關鍵特點
5.4 適用場景

6. 決定係數（Coefficient of Determination, \(R^2^\)）

6.1 核心定義
6.2 計算公式
6.3 數值解讀
6.4 關鍵特點
6.5 適用場景
6.6 調整後\(R^2^\)（補充）

一、常用的分類與迴歸算法

分類與迴歸算法的核心差異在於預測目標的類型，但兩者均遵循“數據擬合-規律學習-預測應用”的邏輯。以下分別介紹兩類任務中應用最廣泛的經典算法。

1. 常用分類算法

分類算法的目標是構建輸入特徵→離散類別的映射關係，需兼顧準確率、泛化能力與可解釋性。

算法名稱	核心原理	適用場景	優點	缺點
邏輯迴歸（LR）	通過Sigmoid函數將線性迴歸輸出（(z=w^Tx+b)）映射到[0,1]區間，輸出正類概率，結合閾值判定類別	1. 二分類任務（如用户流失預測、疾病診斷） 2. 需快速訓練與強解釋性場景（如金融風控）	1. 模型結構簡單，易理解 2. 可解釋性強（係數體現特徵重要性） 3. 訓練速度快，資源消耗低	1. 無法處理特徵與類別間的非線性關係 2. 對數據中的異常值敏感
決策樹（DT）	以“特徵分裂”為核心，遞歸選擇信息增益最大/Gini係數最小的特徵，劃分數據為高純度子集，形成樹形結構（葉節點為類別）	1. 特徵與類別呈非線性關係場景 2. 需可視化解釋場景（如電商購買決策分析） 3. 無需複雜數據預處理（可直接處理類別型特徵）	1. 決策邏輯直觀，易可視化 2. 抗噪聲能力較強 3. 無需特徵歸一化/標準化	1. 易過擬合（需通過剪枝優化） 2. 對數據微小變化敏感，穩定性差
支持向量機（SVM）	在特徵空間尋找“最大間隔超平面”分隔樣本；通過核函數（如線性核、RBF核）將低維非線性問題映射到高維線性可分空間	1. 小樣本、高維數據場景（如文本分類） 2. 對泛化能力要求高的場景（如圖像局部特徵分類）	1. 泛化能力強，不易過擬合 2. 對小樣本數據友好 3. 高維數據下表現優秀	1. 訓練速度慢，不適用於百萬級以上樣本 2. 核函數選擇依賴經驗，調參難度大
隨機森林（RF）	基於集成學習思想，通過Bootstrap採樣生成多棵決策樹，每棵樹用部分特徵訓練；最終通過投票（分類）輸出結果，降低單樹過擬合風險	1. 非線性分類任務 2. 需平衡準確率與魯棒性場景（如醫療數據分類） 3. 特徵維度較高但樣本量中等的場景	1. 抗過擬合能力強 2. 對異常值不敏感 3. 可輸出特徵重要性，輔助特徵篩選	1. 模型複雜，單棵樹決策邏輯難解釋 2. 訓練時間長於單棵決策樹，資源消耗高

1.2 常用迴歸算法

迴歸算法的目標是構建輸入特徵→連續數值的映射，需重點關注預測值與真實值的誤差大小。

算法名稱（英文縮寫）	核心原理	適用場景	優點	缺點
線性迴歸（LR）	假設特徵與目標值線性相關，通過最小化殘差平方和求解線性方程(y=w_1x_1+…+w_nx_n+b)中的參數	1. 特徵與目標值線性相關場景（如房屋面積→房價、廣告投入→銷售額） 2. 需快速獲取基礎預測結果（如初步業務預測）	1. 模型簡單，易理解 2. 可解釋性強（係數直接反映特徵影響程度）	1. 無法處理非線性關係 2. 對特徵多重共線性敏感（需通過正則化優化）
嶺迴歸（Ridge）與Lasso迴歸	線性迴歸的正則化改進： - 嶺迴歸：損失函數加入L2正則項（(\lambda\sum w_i^2)），緩解共線性 - Lasso迴歸：損失函數加入L1正則項（(\lambda\sum w_i)），實現特徵選擇	1. 嶺迴歸：特徵存在多重共線性場景（如身高與體重相關的人體數據預測） 2. Lasso迴歸：需簡化模型、篩選關鍵特徵（如用户消費金額預測）	1. 解決線性迴歸的過擬合與共線性問題 2. Lasso可自動實現特徵選擇	1. 需通過交叉驗證調優正則化參數(\lambda) 2. 仍無法直接處理強非線性關係
決策樹迴歸（DTR）	與分類決策樹結構類似，葉節點為連續值；以MSE或MAE最小為目標分裂特徵，使子節點目標值更接近	1. 特徵與目標值非線性相關場景（如温度、濕度→農作物產量） 2. 需處理混合類型特徵（如數值型年齡+類別型職業）	1. 可捕捉非線性關係 2. 無需數據歸一化/標準化 3. 決策邏輯直觀	1. 易過擬合（需剪枝優化） 2. 對數據微小波動敏感，穩定性差
梯度提升樹（GBDT）	基於boosting集成思想，迭代訓練弱迴歸器（多為決策樹），每棵樹修正前一輪誤差，最終疊加結果	1. 需高精度預測場景（如股票收益率、用户生命週期價值預測） 2. 特徵與目標值非線性且關係複雜的任務	1. 預測精度高 2. 對非線性關係擬合能力強	1. 訓練速度慢（串行訓練） 2. 易過擬合（需調優學習率、樹深度等參數）

二、分類模型評價指標

分類模型的評價需結合“預測準確性”“類別平衡單一指標無法全面反映模型性能，需多指標協同分析。

1. 混淆矩陣（Confusion Matrix）

混淆矩陣是二分類任務中對“預測結果與真實結果”的交叉統計，定義4個核心指標：

TP（True Positive）：真實為正類，預測為正類（正確預測的正樣本）；
TN（True Negative）：真實為負類，預測為負類（正確預測的負樣本）；
FP（False Positive）：真實為負類，預測為正類（誤判為正的負樣本，也稱“假陽性”）；
FN（False Negative）：真實為正類，預測為負類（誤判為負的正樣本，也稱“假陰性”）。

所有分類評價指標均基於混淆矩陣計算，例如二分類混淆矩陣結構如下：

	預測正類	預測負類
真實正類	TP	FN
真實負類	FP	TN

2. 準確率（Accuracy）

2.1 核心定義

準確率是所有樣本中“預測結果與真實結果一致”的比例，反映模型的整體分類正確性，是最直觀的評價指標之一。

2.2 計算公式

基於混淆矩陣推導，公式為：
一份非常全面的機器學習分類與迴歸算法的評估指標彙總_#分類

2.3 關鍵特點

優點：計算簡單、含義直觀，適合快速判斷模型的基礎性能；
侷限性：在類別不平衡場景下完全失效。例如“疾病診斷”中，若99%樣本為健康人（負類），模型即使將所有樣本預測為“健康”，準確率仍能達到99%，但完全無法識別患病患者（正類），無實際業務價值。

2.4 適用場景

僅適用於類別分佈均衡的場景，如“普通用户/會員用户分類”（兩類樣本比例接近1:1）、“圖片風格分類”（不同風格圖片數量差異小）等。

3. 精確率（Precision）

3.1 核心定義

精確率（也稱“查準率”）是“預測為正類的樣本中，真實為正類”的比例，聚焦正類預測結果的準確性，避免“假陽性”對業務的影響。

3.2 計算公式

一份非常全面的機器學習分類與迴歸算法的評估指標彙總_過擬合_02

3.3 關鍵特點

精確率越高，説明“預測為正類的樣本中，真正的正類佔比越高”，即“少犯錯、不冤枉負類”；
僅關注“預測正類”的準確性，對“預測負類”的表現無直接反映。

3.4 適用場景

需嚴格控制“假陽性”的業務場景，例如：

垃圾郵件分類：避免將正常郵件（負類）誤判為垃圾郵件（正類），導致用户錯過重要信息；
金融風控：避免將正常用户（負類）誤判為風險用户（正類），影響用户體驗；
電商商品推薦：避免推薦用户不感興趣的商品（假陽性推薦），降低用户反感度。

4. 召回率（Recall）

4.1 核心定義

召回率（也稱“查全率”）是“真實為正類的樣本中，被預測為正類”的比例，聚焦正類樣本的覆蓋能力，避免“假陰性”對業務的影響。

4.2 計算公式

一份非常全面的機器學習分類與迴歸算法的評估指標彙總_#迴歸_03

4.3 關鍵特點

召回率越高，説明“真正的正類樣本被識別出來的比例越高”，即“不漏掉正類”；
僅關注“真實正類”的覆蓋度，對“真實負類”的誤判情況無直接反映。

4.4 適用場景

需嚴格控制“假陰性”的業務場景，例如：

疾病診斷：避免將患病患者（正類）誤判為健康人（負類），導致延誤治療；
欺詐交易檢測：避免漏掉欺詐交易（正類），減少企業資金損失；
地震/火災風險預測：避免漏判潛在風險（正類），保障生命財產安全。

4.5 精確率與召回率的權衡

兩者呈負相關關係：提高精確率會導致召回率下降，反之亦然。例如：

若想讓“垃圾郵件分類”的精確率更高（少誤判正常郵件），需設置更嚴格的判定閾值，可能會漏掉部分模糊的垃圾郵件（召回率下降）；
若想讓“疾病診斷”的召回率更高（不漏掉患者），需設置更寬鬆的判定閾值，可能會將部分健康人誤判為患者（精確率下降）。

5. F1分數（F1-Score）

5.1 核心定義

F1分數是精確率（Precision）與召回率（Recall）的調和平均數，用於綜合評價兩者的均衡性，避免因單一指標優異而掩蓋另一指標的缺陷。

5.2 計算公式

調和平均數的特點是“對較小值更敏感”，若Precision或Recall中有一個極低，F1分數會顯著降低，從而避免“偏科模型”被高估。公式為：
一份非常全面的機器學習分類與迴歸算法的評估指標彙總_#迴歸_04

5.3 關鍵特點

F1分數的取值範圍為[0,1]，越接近1説明模型的Precision與Recall越均衡且優秀；
當Precision與Recall相等時，F1分數等於兩者的數值（例如Precision=0.8、Recall=0.8，則F1=0.8）；
若其中一個指標接近0（如Precision=0.9、Recall=0.1），F1分數會被拉低至0.18，直觀反映模型的“偏科”問題。

5.4 適用場景

適用於“無法明確優先保證Precision還是Recall”的場景，例如：

客户投訴分類：既需避免將正常反饋誤判為投訴（控制FP，保證Precision），也需避免漏掉真實投訴（控制FN，保證Recall），此時需用F1分數平衡兩者；
文本情感分析：既需準確識別正面/負面情感（保證Precision），也需覆蓋所有情感傾向樣本（保證Recall），F1分數是核心評價指標。

6. ROC曲線與AUC值

6.1 ROC曲線（Receiver Operating Characteristic Curve）

6.1.1 核心定義

ROC曲線是通過調整分類閾值，繪製不同閾值下“真陽性率（TPR）”與“假陽性率（FPR）”的關係曲線，直觀反映模型在“識別正類”與“避免誤判負類”之間的平衡能力。

6.1.2 關鍵指標推導

基於混淆矩陣，先定義兩個基礎指標：

真陽性率（TPR）：即召回率（Recall），反映正類的覆蓋能力，公式為：；
假陽性率（FPR）：真實為負類的樣本中，被預測為正類的比例，反映對負類的誤判程度，公式為：。

6.1.3 曲線繪製邏輯

模型輸出每個樣本的“正類概率”（如邏輯迴歸的Sigmoid輸出）；
從高到低依次取不同的概率作為“分類閾值”（例如閾值=0.9、0.8、…、0.1）；
對每個閾值，計算對應的TPR和FPR；
以FPR為橫軸、TPR為縱軸，將所有（FPR, TPR）點連接，形成ROC曲線。

6.1.4 曲線解讀

理想曲線：緊貼左上角（FPR接近0，TPR接近1），説明模型能以極低的假陽性率，實現極高的正類覆蓋；
隨機猜測曲線：沿對角線分佈（TPR=FPR），此時模型性能與“拋硬幣”一致，無實用價值；
曲線對比：若A模型的ROC曲線完全“包裹”B模型的曲線，説明A模型性能優於B模型。

6.2 AUC值（Area Under ROC Curve）

6.2.1 核心定義

AUC值是ROC曲線下方的面積，取值範圍為[0.5,1]，用於量化ROC曲線的性能，避免僅通過圖形主觀判斷的偏差。

6.2.2 數值解讀

AUC=0.5：模型性能與隨機猜測一致（如隨機輸出正類概率），無業務價值；
0.5 < AUC < 0.7：模型性能較差，需優化特徵或算法；
0.7 < AUC < 0.9：模型性能良好，可滿足多數業務需求；
AUC > 0.9：模型性能優秀，對正類與負類的區分能力極強。

6.2.3 適用場景

是類別不平衡場景的“黃金指標”，例如：

罕見疾病診斷（正類樣本佔比<1%）、信用卡欺詐檢測（正類樣本佔比<0.1%）：此時準確率完全失效，而AUC能有效反映模型對少數正類的識別能力；
模型對比場景：當多個模型的ROC曲線交叉時，通過AUC值的大小可直接判斷性能優劣（AUC大的模型更優）。

6.2.4 優勢總結

對類別不平衡不敏感：僅關注“正類概率的相對排序”，而非絕對閾值；
可比較性強：不同模型的AUC值可直接橫向對比，無需考慮閾值差異；
穩定性高：受極端樣本（如少量異常值）的影響較小，結果更可靠。

三、迴歸模型評價指標

迴歸模型的核心是預測真實值的偏差程度，不同指標對誤差的敏感度、計算邏輯及適用場景存在顯著差異。

1. 絕對誤差與相對誤差

絕對誤差與相對誤差是迴歸模型誤差分析的“基礎單元”，用於描述單個樣本的預測偏差，是後續衍生指標（如平均絕對誤差）的計算基礎。

1.1 絕對誤差（Absolute Error, AE）

1.1.1 核心定義

絕對誤差是“單個樣本預測值與真實值的絕對值差”，反映單個預測結果的“絕對偏差大小”，不考慮偏差方向（如“預測值比真實值高5”與“低5”的絕對誤差相同）。

1.1.2 計算公式

設某樣本的真實值為( 一份非常全面的機器學習分類與迴歸算法的評估指標彙總_#分類_07 )，模型預測值為( 一份非常全面的機器學習分類與迴歸算法的評估指標彙總_#迴歸_08 )，則該樣本的絕對誤差為：
一份非常全面的機器學習分類與迴歸算法的評估指標彙總_#數據挖掘_09

1.1.3 特點與應用

特點：計算簡單，直觀反映單個樣本的偏差程度，單位與目標值一致（如預測房價時，AE=5萬元代表該樣本預測偏差為5萬元）；
應用：多用於單個樣本的誤差分析（如“某套房屋預測價與真實價的偏差”），或作為後續“平均絕對誤差”的計算組件，不直接用於整體模型評價。

1.2 相對誤差（Relative Error, RE）

1.2.1 核心定義

相對誤差是“絕對誤差與真實值的比值”，用於衡量“偏差佔真實值的比例”，解決了“絕對誤差無法橫向對比不同量級樣本”的問題。

1.2.2 計算公式

為避免真實值(y_i=0)時無意義，通常取絕對值計算，公式為：
一份非常全面的機器學習分類與迴歸算法的評估指標彙總_過擬合_10
若需以百分比形式呈現（更易理解），可進一步轉化為：

1.2.3 特點與應用

特點：無量綱（無單位），可橫向對比不同量級樣本的偏差程度。例如：預測“100萬元房價”時AE=5萬元，相對誤差為5%；預測“10萬元二手車價”時AE=2萬元，相對誤差為20%，雖前者絕對誤差更大，但後者偏差佔比更高，模型對二手車價的預測精度更差；
應用：適用於“樣本目標值量級差異大”的場景，如“同時預測10萬元家電與1000萬元設備的價格”，通過相對誤差判斷模型對不同量級樣本的預測穩定性。