像數據科學家一樣思考：12步指南（中） - 阿里云云棲社區的個人空間 - 詳情 - 數據集,方差,資料集,HarmonyOS,後端開發 mob64ca13f87273 博客

你可能正在處理來自不同醫院、不同設備或不同人羣的睡眠多導睡眠圖（PSG）材料集（比如 Sleep-EDF, SleepDG, HMC 等），並發現一個棘手的問題：在一個資料集上訓練得很好的模型，換到另一個內容集上效果就一落千丈。

這個問題，大家稱之為域偏差（Domain Bias）或域偏移（Domain Shift）。

這篇博客的唯一目的，就是帶你——一個“小白”——從最基礎的統計學原理和公式出發，一步步學會如何量化和評判這些數據集之間的差異。

路線圖

我們將分步驟進行，就像爬樓梯一樣：

Step 1: 描述性統計- 給你的內容集“量體温”
Step 2: 數據分佈- 看清數據集的“長相”
Step 3: 假設檢驗- 判斷“差異”是否真的存在
Step 4: 分佈相似性度量- 域偏差的“量化”
Step 5: 綜合分析- 如何向他人展示你的發現

Step 1: 描述性統計 (Descriptive Statistics)

這是最基礎的第一步。我們要為每個數據集計算一些“身份信息”。

類比：想象你有兩組人（兩個數據集），你應該先知道他們的平均身高、體重範圍等主要信息。

1.1 中心趨勢 (Central Tendency)

它告訴我們數據的“中心”在哪裏。

a) 均值 (Mean)

就是我們常説的“平均數”。它對“異常值”（比如一個特定大的偽影）非常敏感。

公式：
對於一個特徵（比如C4-A1通道的EEG信號幅度），其均值為像數據科學家一樣思考：12步指南（中） - 阿里云云棲社區的個人空間 -_資料集：

其中，是樣本總數（比如總Epochs數），是第個樣本的值。

b) 中位數 (Median)

將所有素材從高到低排序，排在最中間的那個數。它對異常值不敏感，更“穩健”。

公式：
像數據科學家一樣思考：12步指南（中） - 阿里云云棲社區的個人空間 -_資料集_06

1.2 離散程度 (Dispersion)

它告訴我們材料有多“分散”或多“集中”。

a) 方差 (Variance)

衡量每個數據點離均值有多遠。方差越大，信息越分散。

公式：
像數據科學家一樣思考：12步指南（中） - 阿里云云棲社區的個人空間 -_方差_07

b) 標準差 (Standard Deviation)

方差的平方根。它的好處是單位和原始數據相同（比如像數據科學家一樣思考：12步指南（中） - 阿里云云棲社區的個人空間 -_數據集_08 ），因此更容易解釋。

公式：
像數據科學家一樣思考：12步指南（中） - 阿里云云棲社區的個人空間 -_數據集_09

PSG應用與域偏差初探：

假設你計算了兩個PSG素材集（數據集A 和數據集B）的統計數據：

特徵	指標	信息集 A (醫院A)	資料集 B (醫院B)
患者年齡	均值 ()	45.2 歲	58.7 歲
EEG (C4-A1) 幅度	標準差 ()	15.3	28.1

結論：

年齡差異：數據集B的患者平均年齡顯著大於A。這是一個協變量偏移 (Covariate Shift)。這可能導致模型學到的“年齡相關的睡眠特徵”在另一個數據集上失效。
信號幅度差異：數據集B的EEG信號標準差遠大於A。這可能意味着B的設備靈敏度不同，或者偽影（Artifacts）更多。這是內容本身的偏移。

Step 2: 數據分佈 (Data Distribution)

均值和方差只是“總結”。我們更想知道資料整體的“長相”。

類比：知道兩組人的平均身高還不夠，我想知道他們中“高個子”和“矮個子”各佔多少比例。

這就是概率密度函數 (Probability Density Function, PDF) 或 直方圖 (Histogram) 要做的事。

公式 (概念)：
生物信號）服從就是我們頻繁假設信息（尤其正態分佈（高斯分佈）。
像數據科學家一樣思考：12步指南（中） - 阿里云云棲社區的個人空間 -_數據集_14
這個公式的重點是：一個分佈可以由它的和

PSG應用與可視化：

大家行畫出兩個材料集某個特徵（比如某個頻帶的能量）的分佈圖。

假設的可視化圖：

[一個顯示兩個不同分佈的假設圖表]
                 |
      數據集 A     |     .
     (μ=10, σ=2)   |    . .
                 |   .   .
                 |  .     .
   概率密度       | .       .        數據集 B
                 | .         .      (μ=15, σ=4)
                 | .           .
                 | .             .
                 |.               .
                 |________________._________________
                             特徵值 (例如: Delta波能量)
圖1：假設數據集A與數據集B的特徵分佈對比

結論：
從上圖（假設）中我們肉眼可見：