主成分分析:統計方法-中文百科頻道

原理

在用統計分析方法研究多變量的課題時，變量個數太多就會增加課題的複雜性。人們自然希望變量個數較少而得到的信息較多。在很多情形，變量之間是有一定的相關關系的，當兩個變量之間有一定相關關系時，可以解釋為這兩個變量反映此課題的信息有一定的重疊。主成分分析是對于原先提出的所有變量，将重複的變量（關系緊密的變量）删去多餘，建立盡可能少的新變量，使得這些新變量是兩兩不相關的，而且這些新變量在反映課題的信息方面盡可能保持原有的信息。

設法将原來變量重新組合成一組新的互相無關的幾個綜合變量，同時根據實際需要從中可以取出幾個較少的綜合變量盡可能多地反映原來變量的信息的統計方法叫做主成分分析或稱主分量分析，也是數學上用來降維的一種方法。

應用學科

主成分分析作為基礎的數學分析方法，其實際應用十分廣泛，比如人口統計學、數量地理學、分子動力學模拟、數學建模、數理分析等學科中均有應用，是一種常用的多變量分析方法。

成分分析

成分分析（包含成分檢測、成分測試項目）是通過微觀譜圖對未知成分進行分析的技術方法，因該技術普遍采用光譜，色譜，能譜，熱譜，質譜等微觀譜圖。

内容

基本思想

主成分分析是設法将原來衆多具有一定相關性（比如P個指标），重新組合成一組新的互相無關的綜合指标來代替原來的指标。

主成分分析，是考察多個變量間相關性一種多元統計方法，研究如何通過少數幾個主成分來揭示多個變量間的内部結構，即從原始變量中導出少數幾個主成分，使它們盡可能多地保留原始變量的信息，且彼此間互不相關.通常數學上的處理就是将原來P個指标作線性組合，作為新的綜合指标。

最經典的做法就是用F1（選取的第一個線性組合，即第一個綜合指标）的方差來表達，即Var(F1)越大，表示F1包含的信息越多。因此在所有的線性組合中選取的F1應該是方差最大的，故稱F1為第一主成分。如果第一主成分不足以代表原來P個指标的信息，再考慮選取F2即選第二個線性組合，為了有效地反映原來信息，F1已有的信息就不需要再出現在F2中，用數學語言表達就是要求Cov(F1, F2)=0，則稱F2為第二主成分，依此類推可以構造出第三、第四，……，第P個主成分。

步驟

Fp = a1i*ZX1 + a2i*ZX2 + …… + api*ZXp

其中a1i, a2i, ……,api(i=1,……,m)為X的協方差陣Σ的特征值所對應的特征向量，ZX1, ZX2, ……, ZXp是原始變量經過标準化處理的值，因為在實際應用中，往往存在指标的量綱不同，所以在計算之前須先消除量綱的影響，而将原始數據标準化，本文所采用的數據就存在量綱影響[注：本文指的數據标準化是指Z标準化。

主成分分析法的計算步驟

A = (aij)p×m = (a1,a2,…am,)，

Rai = λiai，

R為相關系數矩陣，λi、ai是相應的特征值和單位特征向量, λ1 ≥ λ2 ≥ …≥ λp ≥ 0 。

進行主成分分析主要步驟如下：

1. 指标數據标準化（SPSS軟件自動執行）；

2. 指标之間的相關性判定；

3. 确定主成分個數m；

4. 主成分Fi表達式；

5. 主成分Fi命名；