adidas yeezy foam runner
custom jerseys
adidas shop
best sex toy for men
nfl jersey for sale
adidas yeezy sneakers
cheap nfl jerseys
nike air max 270 womens
air jordan sale
custom hockey jersey
adidas running shoes
best nfl uniforms
nfl jersey sales
nike air max 90 futura
nfl jerseys
本篇文章主要說明虛擬變數的功用和如何使用STATA生成虛擬變數。在常見的迴歸分析中,自變項通常是連續變項,因為迴歸分析假設自變項與依變項存在著線性關係。若自變項並非等距或比率變項,而是類別變項時,就需要先產生虛擬變數(dummy variable),而這時就需要生成虛擬變數的語法了。下述的操作說明將針對虛擬變數進行詳細說明。
一、二元類別(類別變數為2類,以0、1變數進行分析)
首先舉例而言,一個簡單迴歸方程式 Y=B0+B1X,其中Y為依變項,X為自變項,B0與B1是經迴歸分析所估計出來的係數,而B1說明了X與Y之間的關係,即每當X增加1,Y就會增加B1。
那如果想要用類別而不是連續的變項來估測Y呢?如果X為自變項,例如性別、父親籍貫等,方程式 Y=B0+B1*性別,此時若解釋成每當性別增加1,依變項會增加B1,但是性別屬於類別變項,何來增減的程度差異呢?又如果類別變項有三類以上呢?難道能說父親籍貫每增加1,依變項就會隨之增加B1嗎?
想要正確解釋類別變項在迴歸方程式中的意義,就應該先產生一種新的變數:虛擬變數(dummy variable)。因應類別變項不能放進迴歸模型中檢測,所以設定1、0的數字來建立虛擬變項,例如在性別變項中,將男性設1,女性設0,如此一來便能計算出平均數等數值,也能放進迴歸模型裡跑檢定值。
在STATA中設立虛擬變數的方式為:
gen sex_d1 =sex; (生成新的虛擬變數稱為sex_d1)
recode sex_d1 1=1 2=0; (將男性設為1,女性設為0)
如今男性的虛擬編碼為1,女性的虛擬編碼為0,在迴歸方程式中只需放入sex_d1作為自變項即可,只要sex_d1為1就是指男性,sex_d1為0的話就是女性。
假設有一個迴歸模型是分析主觀社會地位和性別間的關係,如下圖:
這組模型的迴歸方程式為: y=4.69-0.074*B。其中y是主觀社會地位,而B是男性,男性受訪者的編碼為1,女性受訪者的編碼為0。分別將1與0代回方程式時:
男性的「主觀社會地位」(y)平均數=4.69-0.074×1=4.616,
女性的「主觀社會地位」(y)平均數=4.69-0.074×0=4.69, (女性的y平均數=截距,也就是上圖的「_cons」即「constant」)
男性的主觀社會地位-女性的主觀社會地位=-0.074分,即迴歸係數B,B為兩性主觀社會地位的平均數差異情形。迴歸係數B是以編碼為1的對象平均數減去編碼為0的對象,因此在若有顯著的情況下,可將虛擬變項的迴歸係數,解釋為男性(編碼1群體)相對於女性(編碼0群體)有比較低(因迴歸係數為負)的主觀社會地位。
二、多元類別(類別為3類以上)
當類別數變成4組,比方說父親籍貫為台灣閩南人、客家人、原住民、大陸各省市共四組,在STATA中設立虛擬變數為:
gen fa_d1= fa_13; (生成新的虛擬變數稱為fa_d1)
recode fa_d1 1=1 2=0 3=0 4=0; (將台灣閩南人設為1,其他設為0)
gen fa_d2= fa_13; (生成新的虛擬變數稱為fa_d2)
recode fa_d2 1=0 2=1 3=0 4=0; (將客家人設為1,其他設為0)
gen fa_d3= fa_13; (生成新的虛擬變數稱為fa_d3)
recode fa_d3 1=0 2=0 3=1 4=0; (將原住民設為1,其他設為0)
gen fa_d4= fa_13; (生成新的虛擬變數稱為fa_d4)
recode fa_d4 1=0 2=0 3=0 4=1; (將大陸各省市設為1,其他設為0)
雖然生成了四個虛擬變數,但是迴歸方程式只需放入三組虛擬變數(fa_d2、fa_d3、fa_d4)自變項即可,因為只要其中三組都是0,就可以回推隱藏的那一個參照組(fa_d1)是1。研究者可依據自身的研究需求去決定參照組為何,藉以確認用以比較的組別符合研究的需求。迴歸模型示範如下圖:
依據上方迴歸模型的係數(Coef.),主觀社會地位(y)和籍貫(B)間的迴歸方程式為 y=4.582+0.179*B1+0.070*B2+0.445*B3,虛擬變項編碼都為0的那組(台灣閩南人)視為參考組,將1、0代入方程式的結果如下:
父親為台灣閩南人的平均主觀社會地位=4.582+0.179×0+0.070×0+0.445×0=4.582 (參考組的依變項平均數=截距 constant)
父親為台灣客家人的平均主觀社會地位=4.582+0.179×1+0.070×0+0.445×0=4.761
父親為台灣原住民的平均主觀社會地位=4.582+0.179×0+0.070×1+0.445×0=4.652
父親來自大陸各省市的平均主觀社會地位=4.582+0.179×0+0.070×0+0.445×1=5.027
另一方面,若有顯著的情況下,也可推論迴歸係數>0的組別,相對於參考組有更高的主觀社會地位。不過在上圖的模型中只有fa_d4呈顯著,因此只能說B3=1的那組(大陸各省市)相對於參考組(台灣閩南人)有更高的主觀社會地位(B=0.445, p<.05)。