相關分析

相關分析

研究現象之間的依存關系

相關分析（correlation analysis），相關分析是研究現象之間是否存在某種依存關系，并對具體有依存關系的現象探讨其相關方向以及相關程度，是研究随機變量之間的相關關系的一種統計方法。例如，以X、Y分别記小學生的數學與語文成績，感興趣的是二者的關系如何，而不在于由X去預測Y。

中文名:相關分析外文名:correlation analysis 别名: 應用學科:統計學适用領域範圍:研究現象之間是否存在某種依存關系屬性:非确定性的關系類型:線性相關，偏相關分析等

簡介

相關關系是一種非确定性的關系，例如，以X和Y分别記一個人的身高和體重，或分别記每公頃施肥量與每公頃小麥産量，則X與Y顯然有關系，而又沒有确切到可由其中的一個去精确地決定另一個的程度，這就是相關關系。

變量說明

相關分析中的兩個變量是自變量和因變量，而且都是随機變量，回歸分析中的兩個變量隻有因變量是随機的，自變量是可以控制的量。相關分析，是研究現兩個随機變量之間是否存在某種依存關系，最典型的一種如求相關系數。

分類

1、線性相關分析：研究兩個變量間線性關系的程度。用相關系數r來描述。

（1）正相關：如果x,y變化的方向一緻，如身高與體重的關系，r>0；一般地，

·|r|>0.95存在顯着性相關；

·|r|≥0.8高度相關；

·0.5≤|r|<0.8中度相關；

·0.3≤|r|<0.5低度相關；

·|r|<0.3關系極弱，認為不相關

（2）負相關：如果x,y變化的方向相反，如吸煙與肺功能的關系，r<0；

（3）無線性相關：r=0。

如果變量Y與X間是函數關系，則r=1或r=-1；如果變量Y與X間是統計關系，則-1

（4）r的計算有三種：

①Pearson相關系數：對定距連續變量的數據進行計算。

②Spearman和Kendall相關系數：對分類變量的數據或變量值的分布明顯非正态或分布不明時，計算時先對離散數據進行排序或對定距變量值排（求）秩。

2、偏相關分析：研究兩個變量之間的線性相關關系時，控制可能對其産生影響的變量。如控制年齡和工作經驗的影響，估計工資收入與受教育水平之間的相關關系。

3、距離分析：是對觀測量之間或變量之間相似或不相似程度的一種測度，是一種廣義的距離。分為觀測量之間距離分析和變量之間距離分析。

（1）不相似性測度：

·a、對等間隔(定距)數據的不相似性（距離）測度可以使用的統計量有Euclid歐氏距離、歐氏距離平方等。

·b、對計數數據使用卡方。

·c、對二值（隻有兩種取值）數據，使用歐氏距離、歐氏距離平方、尺寸差異、模式差異、方差等。

（2）相似性測度：

·a、等間隔數據使用統計量Pearson相關或餘弦。

·b、測度二元數據的相似性使用的統計量有20餘種。

關系

相關分析與回歸分析在實際應用中有密切關系。然而在回歸分析中，所關心的是一個随機變量Y對另一個（或一組）随機變量X的依賴關系的函數形式。而在相關分析中，所讨論的變量的地位一樣，分析側重于随機變量之間的種種相關特征。例如，以X、Y分别記小學生的數學與語文成績，感興趣的是二者的關系如何，而不在于由X去預測Y。

複相關

研究一個變量x0與另一組變量(x1,x2,…，xn)之間的相關程度。例如,職業聲望同時受到一系列因素（收入、文化、權力……）的影響，那麼這一系列因素的總和與職業聲望之間的關系，就是複相關。複相關系數R0.12…n的測定，可先求出x0對一組變量x1，x2，…，xn的回歸直線，再計算x0與用回歸直線估計值憫之間的簡單直線回歸。複相關系數為

R0.12…n的取值範圍為0≤R0.12…n≤1。複相關系數值愈大，變量間的關系愈密切。

偏相關

研究在多變量的情況下，當控制其他變量影響後，兩個變量間的直線相關程度。又稱淨相關或部分相關。例如，偏相關系數r13.2表示控制變量x2的影響之後，變量x1和變量x3之間的直線相關。偏相關系數較簡單直線相關系數更能真實反映兩變量間的聯系。

偏相關系數、複相關系數、簡單直線相關系數之間存在着一定的關系。以3個變量x1，x2，x3為例，它們有如下的關系：

或

定序變量

讨論兩個定序變量間的相關的程度與方向。又稱等級相關。例如，研究夫婦雙方文化程度的相關等。等級相關系數有R系數和γ系數。

R系數計算方法與簡單直線相關系數相同。式中X,Y分别為x,y的測量值的等級。

英國統計學家C.E.斯皮爾曼從R系數中推導出簡捷式，稱斯皮爾曼等級相關系數：

式中di=xi-yi,i=1,2,…,N（N為次數）。

等級相關系數R具有與簡單直線相關相同的性質：取值範圍在〔-1,+1〕之間；R的絕對值愈大，變量間的等級相關程度愈大。

γ系數适用于資料次數N很大的情況。

式中Ns為同序對數目，Nd為異序對數目。

同序對表示兩個個案(xi,yi)和(xj,yj)相比時,具有xi>xj,則yi>yj的性質;反之,若xi>xj,但yi

γ系數的取值範圍在〔-1,+1〕之間。γ的絕對值愈大，變量間的等級相關程度愈大。

相關詞條

相關搜索

其它詞條