相關分析

相關分析

研究現象之間的依存關系
相關分析(correlation analysis),相關分析是研究現象之間是否存在某種依存關系,并對具體有依存關系的現象探讨其相關方向以及相關程度,是研究随機變量之間的相關關系的一種統計方法。例如,以X、Y分别記小學生的數學與語文成績,感興趣的是二者的關系如何,而不在于由X去預測Y。
    中文名:相關分析 外文名:correlation analysis 别名: 應用學科:統計學 适用領域範圍:研究現象之間是否存在某種依存關系 屬性:非确定性的關系 類型:線性相關,偏相關分析等

簡介

相關關系是一種非确定性的關系,例如,以X和Y分别記一個人的身高和體重,或分别記每公頃施肥量與每公頃小麥産量,則X與Y顯然有關系,而又沒有确切到可由其中的一個去精确地決定另一個的程度,這就是相關關系。

變量說明

相關分析中的兩個變量是自變量和因變量,而且都是随機變量,回歸分析中的兩個變量隻有因變量是随機的,自變量是可以控制的量。相關分析,是研究現兩個随機變量之間是否存在某種依存關系,最典型的一種如求相關系數。

分類

1、線性相關分析:研究兩個變量間線性關系的程度。用相關系數r來描述。

(1)正相關:如果x,y變化的方向一緻,如身高與體重的關系,r>0;一般地,

·|r|>0.95存在顯着性相關;

·|r|≥0.8高度相關;

·0.5≤|r|<0.8中度相關;

·0.3≤|r|<0.5低度相關;

·|r|<0.3關系極弱,認為不相關

(2)負相關:如果x,y變化的方向相反,如吸煙與肺功能的關系,r<0;

(3)無線性相關:r=0。

如果變量Y與X間是函數關系,則r=1或r=-1;如果變量Y與X間是統計關系,則-1

(4)r的計算有三種:

①Pearson相關系數:對定距連續變量的數據進行計算。

②Spearman和Kendall相關系數:對分類變量的數據或變量值的分布明顯非正态或分布不明時,計算時先對離散數據進行排序或對定距變量值排(求)秩。

2、偏相關分析:研究兩個變量之間的線性相關關系時,控制可能對其産生影響的變量。如控制年齡和工作經驗的影響,估計工資收入與受教育水平之間的相關關系。

3、距離分析:是對觀測量之間或變量之間相似或不相似程度的一種測度,是一種廣義的距離。分為觀測量之間距離分析和變量之間距離分析。

(1)不相似性測度:

·a、對等間隔(定距)數據的不相似性(距離)測度可以使用的統計量有Euclid歐氏距離、歐氏距離平方等。

·b、對計數數據使用卡方。

·c、對二值(隻有兩種取值)數據,使用歐氏距離、歐氏距離平方、尺寸差異、模式差異、方差等。

(2)相似性測度:

·a、等間隔數據使用統計量Pearson相關或餘弦。

·b、測度二元數據的相似性使用的統計量有20餘種。

關系

相關分析與回歸分析在實際應用中有密切關系。然而在回歸分析中,所關心的是一個随機變量Y對另一個(或一組)随機變量X的依賴關系的函數形式。而在相關分析中,所讨論的變量的地位一樣,分析側重于随機變量之間的種種相關特征。例如,以X、Y分别記小學生的數學與語文成績,感興趣的是二者的關系如何,而不在于由X去預測Y。

複相關

研究一個變量x0與另一組變量(x1,x2,…,xn)之間的相關程度。例如,職業聲望同時受到一系列因素(收入、文化、權力……)的影響,那麼這一系列因素的總和與職業聲望之間的關系,就是複相關。複相關系數R0.12…n的測定,可先求出x0對一組變量x1,x2,…,xn的回歸直線,再計算x0與用回歸直線估計值憫之間的簡單直線回歸。複相關系數為

R0.12…n的取值範圍為0≤R0.12…n≤1。複相關系數值愈大,變量間的關系愈密切。

偏相關

研究在多變量的情況下,當控制其他變量影響後,兩個變量間的直線相關程度。又稱淨相關或部分相關。例如,偏相關系數r13.2表示控制變量x2的影響之後,變量x1和變量x3之間的直線相關。偏相關系數較簡單直線相關系數更能真實反映兩變量間的聯系。

偏相關系數、複相關系數、簡單直線相關系數之間存在着一定的關系。以3個變量x1,x2,x3為例,它們有如下的關系:

定序變量

讨論兩個定序變量間的相關的程度與方向。又稱等級相關。例如,研究夫婦雙方文化程度的相關等。等級相關系數有R系數和γ系數。

R系數計算方法與簡單直線相關系數相同。式中X,Y分别為x,y的測量值的等級。

英國統計學家C.E.斯皮爾曼從R系數中推導出簡捷式,稱斯皮爾曼等級相關系數:

式中di=xi-yi,i=1,2,…,N(N為次數)。

等級相關系數R具有與簡單直線相關相同的性質:取值範圍在〔-1,+1〕之間;R的絕對值愈大,變量間的等級相關程度愈大。

γ系數适用于資料次數N很大的情況。

式中Ns為同序對數目,Nd為異序對數目。

同序對表示兩個個案(xi,yi)和(xj,yj)相比時,具有xi>xj,則yi>yj的性質;反之,若xi>xj,但yi

γ系數的取值範圍在〔-1,+1〕之間。γ的絕對值愈大,變量間的等級相關程度愈大。

相關詞條

相關搜索

其它詞條