多元迴歸分析用於探討多個預測變數及一個依變數之間的關係,本章將仔細說明其使用方式及範例推演。
一、使用狀況:
多元迴歸和簡單線性迴歸相同,一樣是探討自變數(x)與依變數(y)之間的關聯性,並建立出迴歸模型,藉此預測研究者感興趣的變數(y)。
有差別的部分在於,多元線性迴歸:是利用兩個以上的自變數(x)去預測一個依變數(y)。
*【小常識】
在多元線性迴歸當中,依變數必須為連續變數
二、前提假設:
1. 模型假設:
原始模型:
估計式為:
2. 誤差項同樣滿足(1)常態性(Normality) (2)獨立性(Independence) (3)變異
數同質性(Homogeneity)三大假設。
三、假說檢定(Hypothesis Testing):
1. 迴歸模型的顯著性檢定(F test): 探討迴歸模型中的β係數是否全部為0。
當係數不全為0時,迴歸模型才具有預測力。
虛無假說(Null hypothesis)→
對立假說(alternative hypothesis)→
統計值(Statistics)→
2. 個別迴歸係數的邊際檢定(t test): 透過F test確認迴歸模型顯著後,應進行
邊際檢定,探討個別自變數之β係數是否為0。當係數不為0時,自變數才具有解釋力。(共要做k次檢定)
虛無假說(Null hypothesis):
對立假說(alternative hypothesis):
統計值(Statistics):
3. 判定係數R平方(R square): 迴歸模型的總變異中可被解釋之百分比, 數值越大迴歸模型的配適度越好。一般而言,判定係數大於0.5就算不錯了。
4.調整後的 R平方(ADUJUSTED- R square) : 當加入的自變數越多, 就會越大,呈現高估的現象。經過自由度的調整,可以避免 的膨脹。
5. 變異膨脹因子(VIF):判斷多元線性迴歸模型的自變數之間是否獨立,VIF值越小越好,若VIF值>10,表示自變數存在共線性,則應刪除該自變數。
*【小常識】
共線性(collinarity):當2個(或以上)的自變數互不獨立(即彼此相關),就是具有「共線性」。「共線性」會使迴歸模型中存在著重複的自變數,提高某一自變數的解釋力與預測力,使得理論的建構不正確。
四、SPSS 操作Example:
【例題】探討學生的身高、年齡是否會影響其體重。
本題例子為多元線性迴歸,以兩個x(身高、年齡)去預測y(體重)。
1. 在SPSS中輸入欲分析之資料。
2. 進行相關檢定:分析→相關→雙變數
分析相關變數:身高(X1)、年齡(X2)、體重(y)
→身高(X1)、年齡(X2)和體重(y)顯著相關,通過檢定(顯著性p<.05),可繼續進行迴歸分析
3. 多元線性迴歸:分析→迴歸→線性
數入變數
依變數:體重(y)
自變數:身高(X1)、年齡(X2)
4. 檢定結果:
(1) R平方為0.667,表示迴歸模型的總變異中有66.7%可被自變數解釋。
調整後R平方為0.643,可以去除自變數愈多而使判定係數膨脹的高估現象。
(2)迴歸模型的顯著性檢定(F test):
在本例中,計算後的F值為27.094,顯著性p值<0.001,拒絕虛無假說。
→此迴歸模型顯著,具有預測能力。
(3)個別迴歸係數的邊際檢定(t test):
在本例中,身高(X1)計算後的t統計值為2.509,顯著性p值<0.05,拒絕虛無假說;年齡(X2)計算後的t統計值為3.123,顯著性p值<0.001,拒絕虛無假說。
→身高(X1)與年齡(X2)均對於體重(y)有顯著的影響。
5. 檢定誤差是否滿足三大假設(參考簡單線性迴歸例題的做法):
(1) 常態性
使用Shapiro-Wilk常態性檢定,H0:常態 V.S. Ha:非常態。
顯著性=0.677>0.05,不拒絕H0,表示殘差分佈為常態,迴歸模型的常態性通過。
另外,根據常態機率圖的特性,若殘差成45度線則服從常態。根據上圖,我們發現本題的殘差近似於一條45度的直線,因此也能推論其服從常態性的假設。
(2) 獨立性判斷準則:
若DW值<DL,表示資料不獨立
若DW值>DU,表示資料獨立
若DL<DW值<DU,則無法判定
(K=2:有兩個自變數)
利用查表看資料是否具獨立性,因為Durbin-Watson值=1.679>DU=1.567,所以判定資料具有獨立性。
(3) 變異數同質性
我們從標準化殘差和預測值的散佈圖中,可以發現資料大致上沿著0線上下均勻跳動,因此符合變異數同質性的假設。
6. 檢測共線性問題
分析→迴歸→線性→統計資料→共線性診斷
→發現VIF值為1.998,不大於10,因此判定自變數之間的共線性並不嚴重,迴歸模型能有效的預測依變數。
本次教學範例檔如下網址所示,僅供同學練習使用: