當自由度等於1時,需要考慮連續校正,則校正方式採用 Yate’s correct test。
本篇文章將介紹 Yate’s correct test – R 語言的操作,細節如下所述。
一、使用葉茲連續校正的適當時機
在理論上,當自由度等於1時,一定要進行連續校正。
但在實務上,當所有細格內的期望次數≥10時,並不須進行校正,因為校不校正對檢定效率的影響很小,亦即校正前後的卡方值很接近。
二、葉茲連續校正的計算方式
(1) 當進行適合度檢定時,其校正的公式為:
其中:Oi和Ei分別是第 i 組樣本之觀察次數和期望次數;1/2為連續校正數。
(2) 當進行獨立性檢定或同質性檢定時,其校正的公式為:
其中:Oij和Eij分別是2×2列聯表(contigency table)中第 i 列第 j 行細格(cell)內的觀察及期望次數;1/2為連續校正數。
三、R語言操作範例
(一) 範例介紹
蘋果大學徵詢30位教授對普選校長的意見,結果得如下表:
試問教授的性別與普選校長的意見是否有關?取α= 0.05檢定之。
(1) 假設檢定:
虛無假設→ H0:教授的性別與普選校長的意見無關。
對立假設→ H1:教授的性別與普選校長的意見有關。
(2) 顯著水準 α = 0.05
(二) 資料匯入
Vote<-read.csv(“Vote-6.csv”, header=T)
# read.csv ():將資料匯入到指定的變數,也就是Vote
View(Vote)
# View():瀏覽資料內容
=> 根據執行結果:在資料集中共有3個變數和4個觀察資料,3個變數分別為:
性別(Sex):1: 男性、2: 女性;意見(Opinion):1: 贊成、2: 不贊成;票數(Vote)
(三) 統計描述
- 資料整理
data<-data.matrix(Vote$Vote) #取number資料轉矩陣格式
rname<-c(“Male”,”Female”) #行名稱
cname<-c(“agree”,”disapprove”) #列名稱
compare<-matrix(data,nrow=2,ncol=2,dimnames=list(rname,cname)) #資料整理並編輯為矩陣格式
compare #查看數據
=> 根據執行結果:列出了卡方檢定所需要的資料格式,並存儲在「compare」資料框中
- 統計描述
S1<-prop.table(compare, margin = 1) #計算行百分比
S1 #顯示行百分比
=> 根據執行結果:普選校長意見的贊成率分別為:男性0.69%、女性0.76%
(四) 統計推斷
##卡方檢驗##
#備註:在使用chisq.test()函數計算時,要注意表格的期望次數。
如果所有表格的期望次數都不爲0,並且所有表格的期望次數都≥5,那麼Pearson卡方檢定是合理的,否則會顯示警告訊息。
如果在計算時出現警告訊息,表示表格內的期望次數有<5的值,且自由度等於1時,得考慮採用Yate’s correct test。
## 卡方檢驗-不進行連續性校正 ##
S2<-chisq.test(compare,correct = FALSE) #不進行連續性校正
=>根據執行結果:出現警告訊息,表示表格內的期望次數有<5的值。
S2$expected #查看期望次數
=>根據執行結果:可知不同性別教授的期望次數;其中在不贊成的部分,期望次數均<5。
S2 #查看卡方檢驗結果
=>根據執行結果:顯示卡方統計量、自由度和P值。
可知教授的性別與普選校長的意見是否有關為無顯著的差異(X2=0.19745,P>0.05)
從剛剛得知,表格內的期望次數有<5的值 & 自由度=1,採用 Yate’s correct test方法計算。
## 卡方檢驗-進行連續性校正 ##
S3<-chisq.test(compare,correct=TRUE) #進行連續性校正
=> 根據執行結果:出現警告訊息,表示表格內的期望次數有<5的值。
S3$expected #查看期望次數
S3 #查看卡方檢驗結果
=> 根據執行結果:顯示卡方統計量、自由度和P值。
可知教授的性別與普選校長的意見是否有關為無顯著的差異(X2=0.00077129,P>0.05)
四、結論
本研究採用葉茲連續校正對教授的性別與普選校長的意見是否有關進行分析,結果顯示不同性別教授對普選校長意見的贊成率分別為:男性0.69%、女性0.76%,且無論是否進行連續性校正,結果都顯示X2值∉(不屬於) C且p值>0.05,所以接受H0 拒絕H1,說明教授的性別與普選校長的意見無關。