“對數似然比”聽起來很複雜,但當你一層層剝開它的面紗,就會發現它其實是由非常簡單、非常自然的概念構成的。
“似然比”(likelihood)是比較同一事件的兩種説法。假設你對同一個變量 X 有兩個不同的概率分佈:
P(x):你的“真實”模型,或者你認為正確的分佈
Q(x):一個替代模型,或者一個假設,或者一個近似值
似然比是:$ \frac{P(x)}{Q(x)} $
直觀理解,它回答了以下問題:“對於這個特定的結果 x,P 比 Q 更相信(或更不相信)它嗎?”
如果 P(x) = 0.2 但 Q(x) = 0.05,則:$ \frac{P(x)}{Q(x)} = 4 $,它的含義是,在模型 P 下,結果 x 的概率是模型 Q 下的四倍,這是解謎的第一塊拼圖。
“對數似然比”將比較轉化為加性,現在取對數。為什麼要取對數?因為對數可以將乘性差異轉化為加性差異,而信息論正是建立在加性的基礎上的。
$ \log \frac{P(x)}{Q(x)} $
這表示,當我們觀察到結果 x 時,P 比 Q 更有利的信息。
這與驚訝的程度有所不同。x 的驚訝程度:-log P(x);P 優於 Q 的證據:log P(x) - log Q(x) 。
兩者都基於對數,因為對數是信息的自然單位。
期望對數似然比代表了證據的平均值。現在計算關於 P 的期望:
$ E_P\left[\log \frac{P(X)}{Q(X)}\right] $
這意味着,平均而言,世界(按 P 分佈)提供了多少支持 P 優於 Q 的證據?這個數值是相對熵,或者説 Kullback-Leibler 散度:
$ D(P | Q) = \sum_x P(x) \log \frac{P(x)}{Q(x)} $
現在,“相對熵是似然比的對數期望”這句話突然變得直白易懂了:相對熵 = 對數期望似然比。
因為它正是如此:“似然比”為 P(x)/Q(x), “對數似然比” 為 \log(P(x)/Q(x)),“期望” 為 P 下的平均值,“對數期望似然比” 為 E_P[\log(P/Q)] 。
現在,神奇之處在於,這個量到底意味着什麼?這正是整個理論的精妙之處。
相對熵$ D(P | Q) $衡量的是:如果你假設世界是 Q 而實際上它是 P,你會因此付出多少額外的驚喜(或編碼成本,或證據成本)。或者更通俗地説:Q 作為 P 的模型錯得有多離譜。它不是對稱的,因為在一個方向上的錯誤與在另一個方向上的錯誤是不同的。相對熵是將一種現實誤認為另一種現實的成本。
似然比並非衡量哪個更大,而是衡量兩個分佈相對於實際發生情況的差異程度。
情況 1:罕見但模型預測一致,兩個模型都認為某種情況發生的概率極低。假設:P(x) = 0.001, Q(x) = 0.001。則,$ \frac{P(x)}{Q(x)} = 1, \log \frac{P(x)}{Q(x)} = 0 $。這意味着:雖然這種情況發生的概率極低,但兩個模型對概率的預測一致,因此 Q(x) 的預測並沒有錯。
情況 2:罕見但被 Q 低估,Q 未能捕捉到罕見但“可能”發生的結果。這時,P(x) = 0.001, Q(x) = 0.00001。則,$ \frac{P(x)}{Q(x)} = 100, \log \frac{P(x)}{Q(x)} \approx 4.6 $。因此,儘管兩者都認為這種情況不太可能發生,但 Q 低估了它,似然比會對此進行懲罰:Q 認為這種情況極不可能發生,但現實中這種情況發生的頻率更高。Q 的判斷比它應該的更不準確。
情況3:罕見但被 Q 高估, Q 對現實幾乎不可能出現的情況給予了過高的信心。例如,P(x) = 0.001, Q(x) = 0.01。則,$ \frac{P(x)}{Q(x)} = 0.1, log \frac{P(x)}{Q(x)} \approx -2.3 $。這產生了有利於 Q 的負面信息,意味着:Q 過於自信,然而,現實很少出現這種結果。這表明有證據反對 Q。
因此,似然比反映的是“差異”,而不僅僅是“大小”。它衡量的不是絕對概率(P(x) 有多大或多小),而是 Q 對 P 所描述的現實的扭曲程度。
這就是為什麼:$ D(P|Q) = \text{預期對數似然比(相對於 }P\text{)} $ 讀作:平均而言,當世界按照 P 運行時,如果有人相信 Q 而不是 P,他們會被誤導到什麼程度?
重要的是 Q 是否與 P 認為的罕見程度相悖。即使 P(x) 很小而 Q(x) 很大,Q 仍然不符合 P(x)。對數似然比完美地體現了這一點:$ \log\frac{P(x)}{Q(x)} < 0 $。這會對平均值產生負面影響,意味着它降低了對 Q 的置信度。相對熵彙總了所有此類分歧,並根據它們在真實世界中的實際相關性進行加權。
為什麼對數似然比原始概率看起來更直觀?
因為概率關乎頻率,而信息關乎可區分性。即使兩個數字都很小,例如,原始概率的差異:0.1 – 0.01 = 0.09,看起來很小。但信息差異:−log(0.1) ≈ 1 比特 vs −log(0.01) ≈ 6.64 比特,感覺很大。
你的直覺告訴你:重要的不是概率的差異,而是預期或壓縮該結果的難度差異。對數將概率轉化為阻力,將意外視為現實用來對抗你預期的能量:
$ \text{surprise}(x) = -\log p(x) $
因此,p(x)=0.1 和 p(x)=0.01 之間的差異不是“0.09”,而是從只需 1 比特編碼的內容到需要 6.64 比特編碼的內容。這是結構上的質變。
概率存在於乘法尺度上,而信息存在於加法尺度上。
對數是連接兩者的橋樑。概率的增長是乘法的:2倍、10倍、100倍,信息的增長是加法的:+1比特、+3比特、+5比特。數學選擇對數並非隨意之舉,選擇對數是因為它體現了不確定性下變化的累積方式。
換句話説,世界以乘法的方式向你拋來不確定性,你的思維以累加的方式組織信息。這就是為什麼我們的直覺更傾向於對數。
在物理學中,力的領域是累加的,所以我們測量距離以累加的方式(米),測量加速度以乘法的方式(對數/指數,相對論尺度)。
在信息領域,不確定性的領域是累加的,所以我們測量概率以乘法的方式(原始數值),測量信息以累加的方式(對數)。理解信息需要進入信息自然累加的尺度,這個尺度是對數尺度。