線性回歸

線性回歸

數學統計分析方法
線性回歸是利用數理統計中的回歸分析,來确定兩種或兩種以上變量間相互依賴的定量關系的一種統計分析方法。[1]分析按照自變量和因變量之間的關系類型,可分為線性回歸分析和非線性回歸分析。線性回歸模型經常用最小二乘逼近來拟合,但他們也可能用别的方法來拟合,比如用最小化“拟合缺陷”在一些其他規範裡(比如最小絕對誤差回歸),或者在橋回歸中最小化最小二乘損失函數的懲罰.相反,最小二乘逼近可以用來拟合那些非線性的模型.因此,盡管“最小二乘法”和“線性模型”是緊密相連的,但他們是不能劃等号的。
    中文名:線性回歸 外文名:linear regression 适用領域: 所屬學科:數學 類别:分析方法 适用範圍:數理統計

簡介

在統計學中,線性回歸(Linear Regression)是利用稱為線性回歸方程的最小平方函數對一個或多個自變量和因變量之間關系進行建模的一種回歸分析。這種函數是一個或多個稱為回歸系數的模型參數的線性組合。隻有一個自變量的情況稱為簡單回歸,大于一個自變量情況的叫做多元回歸。

回歸分析中,隻包括一個自變量和一個因變量,且二者的關系可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個或兩個以上的自變量,且因變量和自變量之間是線性關系,則稱為多元線性回歸分析。

在線性回歸中,數據使用線性預測函數來建模,并且未知的模型參數也是通過數據來估計。這些模型被叫做線性模型。最常用的線性回歸建模是給定X值的y的條件均值是X的仿射函數。不太一般的情況,線性回歸模型可以是一個中位數或一些其他的給定X的條件下y的條件分布的分位數作為X的線性函數表示。像所有形式的回歸分析一樣,線性回歸也把焦點放在給定X值的y的條件概率分布,而不是X和y的聯合概率分布(多元分析領域)。

線性回歸是回歸分析中第一種經過嚴格研究并在實際應用中廣泛使用的類型。這是因為線性依賴于其未知參數的模型比非線性依賴于其位置參數的模型更容易拟合,而且産生的估計的統計特性也更容易确定。

線性回歸有很多實際用途。分為以下兩大類:

如果目标是預測或者映射,線性回歸可以用來對觀測數據集的和X的值拟合出一個預測模型。當完成這樣一個模型以後,對于一個新增的X值,在沒有給定與它相配對的y的情況下,可以用這個拟合過的模型預測出一個y值。

給定一個變量y和一些變量X1,...,Xp,這些變量有可能與y相關,線性回歸分析可以用來量化y與Xj之間相關性的強度,評估出與y不相關的Xj,并識别出哪些Xj的子集包含了關于y的冗餘信息。

線性回歸模型經常用最小二乘逼近來拟合,但他們也可能用别的方法來拟合,比如用最小化“拟合缺陷”在一些其他規範裡(比如最小絕對誤差回歸),或者在橋回歸中最小化最小二乘損失函數的懲罰.相反,最小二乘逼近可以用來拟合那些非線性的模型.因此,盡管“最小二乘法”和“線性模型”是緊密相連的,但他們是不能劃等号的。

拟合方程

理解的結果

雖然不同的統計軟件可能會用不同的格式給出回歸的結果,但是它們的基本内容是一緻的。以STATA的輸出為例來說明如何理解回歸分析的結果。在這個例子中,測試讀者的性别(gender),年齡(age),知識程度(know)與文檔的次序(noofdoc)對他們所覺得的文檔質量(relevance)的影響。

輸出

這個輸出包括以下幾部分。左上角給出方差分析表,右上角是模型拟合綜合參數。下方的表給出了具體變量的回歸系數。方差分析表對大部分的行為研究者來講不是很重要,不做讨論。在拟合綜合參數中, R-squared 表示因變量中多大的一部分信息可以被自變量解釋。在這裡是4.46%,相當小。

回歸系數

一般地,要求這個值大于5%。對大部分的行為研究者來講,最重要的是回歸系數。年齡增加1個單位,文檔的質量就下降1020986個單位,表明年長的人對文檔質量的評價會更低。這個變量相應的t值是 -2.10,絕對值大于2,p值也<0.05,所以是顯着的。結論是,年長的人對文檔質量的評價會更低,這個影響是顯着的。相反,領域知識越豐富的人,對文檔的質量評估會更高,但是這個影響不是顯着的。這種對回歸系數的理解就是使用回歸分析進行假設檢驗的過程。

誤差

由于線性回歸是直接計算的,故其誤差可确。

上一篇:多元回歸分析

下一篇:主權債務

相關詞條

相關搜索

其它詞條