範例
假設X是以n個标量随機變量組成的列向量,并且μ是其第k個元素的期望值,即,μ=E[X];協方差矩陣然後被定義為:Σ=E矩陣中的第(i,j)個元素是xi與xj的協方差。這個概念是對于标量随機變量方差的一般化推廣。
說明
盡管協方差矩陣很簡單,可它卻是很多領域裡的非常有力的工具。它能導出一個變換矩陣,這個矩陣能使數據完全去相關(decorrelation)。從不同的角度來看,也就是說能夠找出一組最佳的基以緊湊的方式來表達數據。(完整的證明請參考瑞利商)。這個方法在統計學中被稱為主成分分析(principalcomponentsanalysis),在圖像處理中稱為Karhunen-Loève變換(KL-變換)。
方差基本概念
方差(variance):
集合中各個數據與平均數之差的平方的平均數。n在概率論與數理統計中,方差(Variance)用來度量随機變量和其數學期望(即均值)之間的偏離程度。n方差是各個數據與平均數之差的平方和的平均數.n
以這兩個集合為例,[0,8,12,20]和[8,9,11,12],兩個集合的均值都是10,但顯然兩個集合的差别是很大的,計算兩者的标準差,前者是8.3後者是1.8,顯然後者較為集中,故其标準差小一些,标準差描述的就是這種“散布度”。之所以除以n-1而不是n,是因為這樣能使我們以較小的樣本集更好地逼近總體的标準差,即統計上所謂的“無偏估計”。而方差則僅僅是标準差的平方。
用處
标準差和方差一般是用來描述一維數據的,但現實生活中我們常常會遇到含有多維數據的數據集,最簡單的是大家上學時免不了要統計多個學科的考試成績。
面對這樣的數據集,我們當然可以按照每一維獨立的計算其方差,但是通常我們還想了解更多,比如,一個男孩子的猥瑣程度跟他受女孩子的歡迎程度是否存在一些聯系。協方差就是這樣一種用來度量兩個随機變量關系的統計量,我們可以仿照方差的定義來度量各個維度偏離其均值的程度。
協方差的結果有什麼意義呢?如果結果為正值,則說明兩者是正相關的(從協方差可以引出“相關系數”的定義),也就是說一個人越猥瑣越受女孩歡迎。如果結果為負值,就說明兩者是負相關,越猥瑣女孩子越讨厭。如果為0,則兩者之間沒有關系,猥瑣不猥瑣和女孩子喜不喜歡之間沒有關聯,就是統計上說的“相互獨立”。



















