基礎


頻率學派與貝葉斯學派

http://www.douban.com/group/topic/16719644/

http://www.zhihu.com/question/20587681

最大似然估計(Maximum likelihood estimation,MLE)

http://baike.baidu.com/view/1918804.htm

http://baike.baidu.com/view/185250.htm

最大後驗估計(maximum a posteriori estimation,MAP)


貝葉斯估計(Bayesian parameter estimation,BPE)

http://baike.baidu.com/view/6960491.htm

 

經典參數估計方法:普通最小二乘(OLS)、最大似然(ML)和矩估計(MM)

http://lijiwei19850620.blog.163.com/blog/static/97841538201211282591699/

貝葉斯定理與貝葉斯估計


參數估計

從二項式分佈到多項式分佈-從Beta分佈到Dirichlet分佈

參數估計是一個重要的話題。對於典型的離散型隨機變量分佈:二項式分佈,多項式分佈;典型的連續型隨機變量分佈:正態分佈。他們都可以看着是參數分佈,因為他們的函數形式都被一小部分的參數控制,比如正態分佈的均值和方差,二項式分佈事件發生的概率等。因此,給定一堆觀測數據集(假定數據滿足獨立同分布),我們需要有一個解決方案來確定這些參數值的大小,以便能夠利用分佈模型來做密度估計。這就是參數估計!

對於參數估計,一直存在兩個學派的不同解決方案。一是頻率學派解決方案:通過某些優化準則(比如似然函數)來選擇特定參數值;二是貝葉斯學派解決方案:假定參數服從一個先驗分佈,通過觀測到的數據,使用貝葉斯理論計算對應的後驗分佈。先驗和後驗的選擇滿足共軛,這些分佈都是指數簇分佈的例子。

參數估計方法的一個限制:是我們人為的假定了參數分佈服從了某種指定形式的分佈函數,這可能在某些特定情況下是不合適的。有一種可選的解決方案是:非參數密度估計,他只依賴於觀測數據量的大小,這種方法其實也需要參數,但是這些參數只是控制了模型的複雜性而不是分佈的函數形式。有三種無參密度估計方法:直方圖,最近鄰,核函數。

 

經典估計與貝葉斯估計

文本語言模型的參數估計-最大似然估計、MAP及貝葉斯估計


語言模型的參數估計-最大似然估計、MAP及貝葉斯估計

http://hi.baidu.com/leifenglian/item/cdfdeaea9c3279088c3ea86c

參數估計:最大似然、貝葉斯與最大後驗

http://guangchun.wordpress.com/2011/10/13/ml-bayes-map/

貝葉斯估計淺析


極大似然估計和貝葉斯估計

http://blog.sciencenet.cn/blog-520608-703219.html

 

貝葉斯方法與經典估計方法的主要不同

http://lijiwei19850620.blog.163.com/blog/static/978415382013655540438/

1、關於參數的解釋不同

經典估計方法認為待估參數具有確定值,它的估計量才是隨機的,如果估計量是無偏的,該估計量的期望等於那個確定的參數;而貝葉斯方法認為待估參數是一個服從某種分佈的隨機變量。

2、所利用的信息不同

經典方法只利用樣本信息;貝葉斯方法要求事先提供一個參數的先驗分佈,即人們對有關參數的主觀認識,被稱為先驗信息,是非樣本信息,在參數估計過程中,這些非樣本信息與樣本信息一起被利用。

3、對隨機誤差項的要求不同

經典方法,除了最大似然法,在參數估計過程中並不要求知道隨機誤差項的具體分佈形式,但是在假設檢驗與區間估計時是需要的;貝葉斯方法需要知道隨機誤差項的具體分佈形式。

4、選擇參數估計量的準則不同

經典估計方法或者以殘差平方和最小,或者以似然函數值最大為準則,構造極值條件,求解參數估計量;貝葉斯方法則需要構造一個損失函數,並以損失函數最小化為準則求得參數估計量。

 

最大似然估計、貝葉斯估計兩類參數估計的對比

http://blog.sina.com.cn/s/blog_56c221b00100gjlk.html

最大似然估計:把待估計的參數看作是確定性的量(只是其取值未知),其最佳估計就是使得產生已觀察到的樣本(即訓練樣本)的概率為最大的那個值。(即求條件概率密度p(D|$)為最大時的$,其中D為樣本集,$為條件概率密度分佈的參數)。特點:簡單適用;在訓練樣本增多時通常收斂得很好。

最大後驗估計(MAP-Maxaposterior):求p(D|$)*p($)取最大值的那個參數向量$,最大似然估計可以理解為當先驗概率p($)為均勻分佈時的MAP估計器。(MAP缺點:如果對參數空間進行某些任意非線性變換,如旋轉變換,那麼概率密度p($)就會發生變化,其估計結果就不再有效了。)

貝葉斯估計:把待估計的參數看成是符合某種先驗概率分佈的隨機變量;對樣本進行觀測的過程,就是把先驗概率密度轉化為後驗概率密度,這樣就利用樣本的信息修正了對參數的初始估計值。典型的效果是:每得到新的觀測樣本,都使得後驗概率密度函數變得更加尖鋭,使其在待估參數的真實值附近形成最大的尖峯,這個現象就稱為“貝葉斯學習”過程。

 

最大似然估計(Maximumlikelihoodestimation)


最大後驗估計(MAP)


最大似然估計只考慮某個模型能產生某個給定觀察序列的概率,而未考慮該模型本身的概率,這點與貝葉斯估計區別。

最大後驗估計根據經驗數據獲得對難以觀察的量的點估計。與最大似然估計類似,但是最大的不同時,最大後驗估計的融入了要估計量的先驗分佈在其中,可看做是規則化的最大似然估計。

MAP與MLE最大區別是MAP中加入了模型參數本身的概率分佈,或者説,MLE中認為模型參數本身的概率的是均勻的,即該概率為一個固定值。

 

總結



 

貝葉斯估計

          http://wenku.baidu.com/view/420461e4102de2bd9605883c.html



 

方法比較

 

其他

最大似然估計&貝葉斯估計

http://blog.sciencenet.cn/blog-291618-392241.html

概率空間的定義為(Omega,F,P)。在概率圖模型中,一個問題是從已知的抽樣中估計概率測度P。通常,有兩種估計的方法:一是最大似然估計,一是貝葉斯估計。比如,投硬幣的問題,30上,20下,就估計上的概率為3/5,這樣的估計可以使似然度最大。而貝葉斯主義者認為還應該有更多的先驗知識,比如我們早就知道這樣的概率取值為1/2的概率相對最大,加入這樣的知識後運用貝葉斯公式估計出來的概率就與最大似然法的結果不同。可以想像當先驗知識可靠的時候,這樣的估計會更準確的。

形式化一點,投硬幣的概率空間為({正,反},{{正},{反}},{(正,p),(反,1-p)})。最大似然直接在這樣的空間上估計p。而貝葉斯主義者將所有p決定的測度P看成是另一個Omega*,即概率本身是另一個概率空間中的一個採樣。這另一個空間有自己的另一套測度P*。比如投幣問題中Omega*是所有可能拿到的硬幣,顯然P*會告訴我們不同的硬幣會有不同的p。如果這樣的P*能夠很好的得到,那麼這樣估計的概率會更有説服力。

那麼我想做一些引申,既然一個正反面的概率測度P可以是一個更大的空間中依P*的採樣,那麼P*本身為什麼不是從另一個更大空間中採樣出來的呢。比如考慮温度、濕度、表面粗糙度、重力加速度等條件,會得到另一個概率空間Omega**,不同的環境條件決定了各個硬幣正面概率的變化,故是這樣的空間採樣了P*。如果我們同樣能夠清晰描述P**,這顯然也是合理且有説服力的。

最大似然的模型,可以叫做零階模型(名字是我自己杜撰的),而貝葉斯方法的模型可以叫做一階模型,用同樣的方法可以產生二階、三階以及更高階的模型。前提是我們能夠清晰的描述這些概率分佈是如何從另一個概率分佈中採樣出來的。

一個問題是,這樣的過程可以無限進行嗎,任何實際的概率空間都可以這樣嗎,這樣的過程都合理且有意義嗎。

我這裏想説的是,至少有一種實際的測度,不需要再做這樣的泛化了。這樣的測度就是“宇宙的本質規律”,它賦予任何實在的事件以概率,而它不再是根據某個P*採樣出來的了。解釋有兩點:第一,這些規律有唯一的取值,如果某個規律每次測量會變化,那麼必有更高的不變的規律解釋這樣的變化,從而前者不是“本質規律”,後者才是;第二,如果非要假想有另一種賦值的宇宙規律,而由於我們只可能知道P下的一切,對這樣的P*我們不可能有任何認識,所以這樣的泛化是無意義的。

形而上學會討論可能宇宙,會討論或然宇宙中是否有必然存在物,會討論宇宙的常數是被如何精巧的設定以至於很幸運地產生了現在的宇宙的樣子。我想得出的結論是,除了現在的宇宙外我們一無所知,連宇宙之外的這個規律P*都不知道哪怕一點點,又如何談論它和他所測量的空間Omega*的性質呢。在這個範圍內的任何設定都不會與現實宇宙中的任何現象概率相關,在概率圖中他們被我們“宇宙的本質規律”這個節點阻斷了。可能有可能宇宙,但我們的宇宙與這個宇宙無關。

 

第三章模式識別-最大似然估計和貝葉斯參數估計

http://star.sgst.cn/upload/attach/attach200910140408470m9mz6gd83.pdf


哲學對比

舉例:設參數為桌子的長度,估計該參數,通過測量得到了不同時刻測量的長度值{x1,x2,…,xn}。

唯物主義的方法:長度是確定的;估計方法有均值、中值等

唯心主義的方法:長度是不確定的,即變量;估計方法給出各個取值的可能性(概率)或者分佈。

在參數估計的數學表達上,唯物主義的結果是得到一個確定的值來作為估計的結果。而貝葉斯則得到一個概率值來作為估計結果,而必須是變量才有概率意義,這也是貝葉斯將參數做作不確定變量的直接數學表達。

經典學派是唯物主義,從理性出發,認為參數是確定的。貝葉斯學派是唯心學派,從感性出發,不同的測量樣本空間確實得到了不同的值,因此是隨機變量;

在實際的應用中,貝葉斯的方法比經典學派要好。

 

最大似然/貝葉斯分類

http://blog.sciencenet.cn/blog-291618-392241.html

與分佈有關的統計分類方法主要有最大似然/貝葉斯分類。最大似然分類是圖像處理中最常用的一種監督分類方法,它利用了遙感數據的統計特徵,假定各類的分佈函數為正態分佈,在多變量空間中形成橢圓或橢球分佈,也就是和中個方向上散佈情況不同,按正態分佈規律用最大似然判別規則進行判決,得到較高準確率的分類結果。否則,用平行六面體或最小距離分類效果會更好。

分類步驟:

1、確定需要分類的地區和使用的波段和特徵分類數,檢查所用各波段或特徵分量是否相互已經位置配準;

2、根據已掌握的典型地區的地面情況,在圖像上選擇訓練區;

3、計算參數,根據選出的各類訓練區的圖像數據,計算和,確定先驗概率;

4、分類,將訓練區以外的圖像像元逐個逐類代入公式,對於每個像元,分幾類就計算幾次,最後比較大小,選擇最大值得出類別;

5、產生分類圖,給每一類別規定一個值,如果分10類,就定每一類分別為1,2……10,分類後的像元值便用類別值代替,最後得到的分類圖像就是專題圖像.由於最大灰階值等於類別數,在監視器上顯示時需要給各類加上不同的彩色;

6、檢驗結果,如果分類中錯誤較多,需要重新選擇訓練區再作以上各步,直到結果滿意為止。

這種方法的優點是,對符合正態分佈的樣本P聚類組而言,是監督分類中較準確的分類器,因為考慮的因素較多;與Mahalanobis距離一樣.通過協方差矩陣考慮了類型內部的變化。缺點是,擴展後的等式計算量較大,當輸入波段增加時,計算時間相應增加;最大似然是參數形式的,意味着每一輸入波段必須符合正態分佈;在協方差矩陣中有較大值時,易於對模板分類過頭,如果在聚類組或訓練樣本中的象素分佈較分散,則模板的協方差矩陣中會出現大值。