簡介
相關關系是一種非确定性的關系,例如,以X和Y分别記一個人的身高和體重,或分别記每公頃施肥量與每公頃小麥産量,則X與Y顯然有關系,而又沒有确切到可由其中的一個去精确地決定另一個的程度,這就是相關關系。
變量說明
相關分析中的兩個變量是自變量和因變量,而且都是随機變量,回歸分析中的兩個變量隻有因變量是随機的,自變量是可以控制的量。相關分析,是研究現兩個随機變量之間是否存在某種依存關系,最典型的一種如求相關系數。
分類
1、線性相關分析:研究兩個變量間線性關系的程度。用相關系數r來描述。
(1)正相關:如果x,y變化的方向一緻,如身高與體重的關系,r>0;一般地,
·|r|>0.95存在顯着性相關;
·|r|≥0.8高度相關;
·0.5≤|r|<0.8中度相關;
·0.3≤|r|<0.5低度相關;
·|r|<0.3關系極弱,認為不相關
(2)負相關:如果x,y變化的方向相反,如吸煙與肺功能的關系,r<0;
(3)無線性相關:r=0。
如果變量Y與X間是函數關系,則r=1或r=-1;如果變量Y與X間是統計關系,則-1
(4)r的計算有三種:
①Pearson相關系數:對定距連續變量的數據進行計算。
②Spearman和Kendall相關系數:對分類變量的數據或變量值的分布明顯非正态或分布不明時,計算時先對離散數據進行排序或對定距變量值排(求)秩。
2、偏相關分析:研究兩個變量之間的線性相關關系時,控制可能對其産生影響的變量。如控制年齡和工作經驗的影響,估計工資收入與受教育水平之間的相關關系。
3、距離分析:是對觀測量之間或變量之間相似或不相似程度的一種測度,是一種廣義的距離。分為觀測量之間距離分析和變量之間距離分析。
(1)不相似性測度:
·a、對等間隔(定距)數據的不相似性(距離)測度可以使用的統計量有Euclid歐氏距離、歐氏距離平方等。
·b、對計數數據使用卡方。
·c、對二值(隻有兩種取值)數據,使用歐氏距離、歐氏距離平方、尺寸差異、模式差異、方差等。
(2)相似性測度:
·a、等間隔數據使用統計量Pearson相關或餘弦。
·b、測度二元數據的相似性使用的統計量有20餘種。
關系
相關分析與回歸分析在實際應用中有密切關系。然而在回歸分析中,所關心的是一個随機變量Y對另一個(或一組)随機變量X的依賴關系的函數形式。而在相關分析中,所讨論的變量的地位一樣,分析側重于随機變量之間的種種相關特征。例如,以X、Y分别記小學生的數學與語文成績,感興趣的是二者的關系如何,而不在于由X去預測Y。
複相關
研究一個變量x0與另一組變量(x1,x2,…,xn)之間的相關程度。例如,職業聲望同時受到一系列因素(收入、文化、權力……)的影響,那麼這一系列因素的總和與職業聲望之間的關系,就是複相關。複相關系數R0.12…n的測定,可先求出x0對一組變量x1,x2,…,xn的回歸直線,再計算x0與用回歸直線估計值憫之間的簡單直線回歸。複相關系數為
R0.12…n的取值範圍為0≤R0.12…n≤1。複相關系數值愈大,變量間的關系愈密切。
偏相關
研究在多變量的情況下,當控制其他變量影響後,兩個變量間的直線相關程度。又稱淨相關或部分相關。例如,偏相關系數r13.2表示控制變量x2的影響之後,變量x1和變量x3之間的直線相關。偏相關系數較簡單直線相關系數更能真實反映兩變量間的聯系。
偏相關系數、複相關系數、簡單直線相關系數之間存在着一定的關系。以3個變量x1,x2,x3為例,它們有如下的關系:
或
定序變量
讨論兩個定序變量間的相關的程度與方向。又稱等級相關。例如,研究夫婦雙方文化程度的相關等。等級相關系數有R系數和γ系數。
R系數計算方法與簡單直線相關系數相同。式中X,Y分别為x,y的測量值的等級。
英國統計學家C.E.斯皮爾曼從R系數中推導出簡捷式,稱斯皮爾曼等級相關系數:
式中di=xi-yi,i=1,2,…,N(N為次數)。
等級相關系數R具有與簡單直線相關相同的性質:取值範圍在〔-1,+1〕之間;R的絕對值愈大,變量間的等級相關程度愈大。
γ系數适用于資料次數N很大的情況。
式中Ns為同序對數目,Nd為異序對數目。
同序對表示兩個個案(xi,yi)和(xj,yj)相比時,具有xi>xj,則yi>yj的性質;反之,若xi>xj,但yi
γ系數的取值範圍在〔-1,+1〕之間。γ的絕對值愈大,變量間的等級相關程度愈大。



















