相關系數

相關系數

數學術語
相關系數,或稱線性相關系數、皮氏積矩相關系數(Pearson product-moment correlation coefficient,PPCC)等,是衡量兩個随機變量之間線性相關程度的指标。它由卡爾·皮爾森(Karl Pearson)在1880年代提出,現已廣泛地應用于科學的各個領域。依據相關現象之間的不同特征,其統計指标的名稱有所不同。相關關系是一種非确定性的關系,相關系數是研究變量之間線性相關程度的量。
    中文名:相關系數 外文名: 定義:簡單、典型、複相 英文名:Correlation coefficient 計算方法:按積差

定義

廣義複相關系數是簡單相關系數和複相關系數的自然推廣,應用上更為方便。

簡單相關系數:又叫相關系數或線性相關系數,一般用字母r表示,用來度量兩個變量間的線性關系。

複相關系數:又叫多重相關系數。複相關是指因變量與多個自變量之間的相關關系。例如,某種商品的季節性需求量與其價格水平、職工收入水平等現象之間呈現複相關關系。

典型相關系數:是先對原來各組變量進行主成分分析,得到新的線性關系的綜合指标,再通過綜合指标之間的線性相關系數來研究原各組變量間相關關系。

性質

(1)定理:|ρXY|=1的充要條件是,存在常數a,b,使得P{Y=a+bX}=1;

相關系數ρXY取值在-1到1之間,ρXY=0時,稱X,Y不相關;|ρXY|=1時,稱X,Y完全相關,此時,X,Y之間具有線性函數關系;|ρXY|<1時,X的變動引起Y的部分變動,ρXY的絕對值越大,X的變動引起Y的變動就越大,|ρXY|>0.8時稱為高度相關,當|ρXY|<0.3時稱為低度相關,其它時候為中度相關。

(2)推論:若Y=a+bX,則有證明:令E(X)=μ,D(X)=σ2;

則E(Y)=bμ+a,D(Y)=b2σ2;

E(XY)=E(aX+bX2)=aμ+b(σ2+μ2);

Cov(X,Y)=E(XY)−E(X)E(Y)=bσ2;

若b≠0,則ρXY≠0。

若b=0,則ρXY=0。

應用

1、在概率論計算中的應用

例1,若将一枚硬币抛n次,X表示n次試驗中出現正面的次數,Y表示n次試驗中出現反面的次數。計算ρXY。

解:由于X+Y=n,則Y=-X+n,根據相關系數的性質推論,得ρXY=−1。

例2.已知随機變量X、Y分别服從正态分布N(1,9),N(0,16)且X,Y的相關系數

設,求證X,Z相互獨立。

證明:由已知得E(X)=1,D(X)=9,E(Y)=0,D(Y)=16。

由于正态分布的随機變量的線性組合仍然服從正态分布,知Z是正态變量。

根據方差的性質有得,由于E(XY)=Cov(X,Y)+E(X)E(Y)=−6,E(X)=D(X)+[E(X)]=10。ρXZ=0,X,Z不相關。

由于正态随機變量的相互獨立與互不相關等價,故X,Z相互獨立。

因此,一般情況下兩個随機變量不相關不一定相互獨立。不相關僅指随機變量之間沒有線性關系,而相互獨立則表明随機變量之間互不影響,沒有關系。

2、在企業物流上的應用

一種新産品上市。在上市之前,公司的物流部需把新産品合理分配到全國的10個倉庫,新品上市一個月後,要評估實際分配方案與之前考慮的其他分配方案中,是實際分配方案好還是其中尚未使用的分配方案更好,通過這樣的評估,可以在下一次的新産品上市使用更準确的産品分配方案,以避免由于分配而産生的積壓和斷貨。

通過計算,很容易得出這3個分配方案中,B的相關系數是最大的,這樣就評估到B的分配方案比實際分配方案A更好,在下一次的新産品上市分配計劃中,就可以考慮用B這種分配方法來計算實際分配方案。

3、在聚類分析中的應用

如果有若幹個樣品,每個樣品有n個特征,則相關系數可以表示兩個樣品間的相似程度。借此,可以對樣品的親疏遠近進行距離聚類。例如9個小麥品種(分别用A1,A2,A9表示)的6個性狀,作相關系數計算并檢驗。

由相關系數計算公式可計算出6個性狀間的相關系數,分析及檢驗結果見表3。由表3可以看出,冬季分蘖與每穗粒數之間呈現負相關(ρ=−0.8982),即麥冬季分蘖越多,那麼每穗的小麥粒數越少,其他性狀之間的關系不顯著。

缺點

需要指出的是,相關系數有一個明顯的缺點,即它接近于1的程度與數據組數n相關,這容易給人一種假象。因為,當n較小時,相關系數的波動較大,對有些樣本相關系數的絕對值易接近于1;當n較大時,相關系數的絕對值容易偏小。特别是當n=2時,相關系數的絕對值總為1。因此在樣本容量n較小時,我們僅憑相關系數較大就判定變量x與y之間有密切的線性關系是不妥當的。

例如,就我國深滬兩股市資産負債率與每股收益之間的相關關系做研究。發現1999年資産負債率前40名的上市公司,二者的相關系數為r=–0.6139;資産負債率後20名的上市公司,二者的相關系數r=0.1072。

而對于滬、深全部上市公司(基金除外)結果卻是,r滬=–0.5509,r深=–0.4361,根據三級劃分方法,兩變量為顯著性相關。這也說明僅憑r的計算值大小判斷相關程度有一定的缺陷。

上一篇:同度量因素

下一篇:牙買加體系

相關詞條

相關搜索

其它詞條