卡方分配(chi-square distribution)是統計學常用的一種機率分布,可應用於類別資料分析。
在實際應用中,最常見的有三種方法:獨立性檢定、同質性檢定、適配度檢定。
本篇文章主要介紹卡方適配度檢定– R語言的操作,細節如下所述。
#補充:卡方適合度檢定相關內容(SPSS)
https://www.yongxi-stat.com/chi-test-of-goodness-of-fit/
一、分析目的
利用樣本資料檢定母體是否符合某種特定分配。
二、卡方適合度檢定的計算方式
(1) 假設檢定
虛無假設(Null hypothesis)→ H0:母體為某一特定分配 或 H0:p1=p10, p2=p20, …, pk=pk0。
對立假設(alternative hypothesis)→ H1:母體不為某一特定分配;H1:H0不成立。
(2) 顯著水準 α
其中 d表示需以估計量估計未知母體參數之個數 →需查表
(4) 計算檢定統計量:Pearson的X2統計量
# 補充:利用Pearson的X2檢定方法時必須注意下列事項:
(1) 為求檢定之效率高,故要求期望次數≥5。若有小於5時,必須加以合併,使其≥5為止;或者採用Fisher’s Exact Test。
(2) 若自由度為1時,需要考慮連續校正,即:
(3) 此連續性校正方法又被稱為葉茲連續校正(Yates’ Correction for Continuity)。
三、R語言操作範例
(一) 範例介紹
王大明投一顆骰子180次,得下列資料:
試問王大明所投之骰子是否為公正之骰子?請以顯著水準α=0.05檢定之。
(1) 設6個點數出現次數分別為p1、p2、p3、p4、p5及p6,其檢定假設為:
虛無假設→ H0:骰子為公正之骰子(H0:p1=p2=p3=p4=p5=p6=1/6)。
對立假設→ H1:骰子為不公正之骰子(H1:H0不對)。
(2) 顯著水準 α = 0.05
(二) 資料匯入
Dice<-read.csv(“Dice-4.csv”,header=T)
# read.csv ():將資料匯入到指定的變數,也就是Dice
View(Dice)
# View():瀏覽資料內容
=>根據執行結果:在資料集中共有2個變數和6個觀察資料,2個變數分別為:點數(ID):分別為1~6點;出現次數(Frequency)
(三) 統計描述
- 資料整理
data<-data.matrix(Dice$Frequency) #取number資料轉矩陣格式
rname<-c(“Frequency”) #行名稱
cname<-c(“1″,”2″,”3″,”4″,”5″,”6”) #列名稱
compare<-matrix(data,nrow=1,dimnames=list(rname,cname)) #資料整理並編輯為矩陣格式
compare #查看數據
=>根據執行結果:列出了卡方檢驗所需要的資料格式,並存儲在「compare」資料框中
- 統計描述
S1<-prop.table(compare, margin = 1) #計算行百分比
S1 #顯示行百分比
=>根據執行結果:1~6點出現機率依序分別為:0.16%、0.2%、0.2%、0.17%、0.15%、0.13%
(四) 統計推斷
##卡方檢驗##
S2<-chisq.test(compare,correct = FALSE) #不進行連續性校正
S2$expected #查看期望次數
=>根據執行結果:可知表格內的期望次數均>5。
# 補充:在卡方檢定中,一般要求期望次數不得小於1,並且不得有20%以上細格的期望次數小於5。
不然則建議合併相鄰的行或列,或採用Yate’ s correct test,或採用Fisher’ s Exact Test。
S2 #查看卡方檢驗結果
=>根據執行結果:顯示卡方統計量、自由度和P值。因X2=4.4667 ∉ (不屬於) C、P>0.05,故結論:接受H0,也就是骰子為公正的骰子。
四、結論
本研究採用卡方適合度檢定對投出的骰子是否為公正之骰子進行分析,結果顯示骰子出現1~6點機率依序分別為:0.16%、0.2%、0.2%、0.17%、0.15%、0.13%,且表示骰子為公正的骰子(X2=4.4667,P>0.05),也就是接受H0 拒絕H1。