傳統的ROC曲線在醫療、心理、教育、機器學習(ML)等領域已有多年的發展,其核心目的是為了找到能區分依變數(目標變數)的最佳切點。在ROC曲線分析中,自變數一般會採用等距的連續變數,如此一來便可以透過敏感性(sensitivity)及特殊性(specificity)來找到最佳的Cut point。

1、ROC公式說明

1.1 ROC基本概念

在過去的文章中,我們曾對ROC曲線分析做了詳細的說明,請參考「ROC曲線法」相關說明。ROC曲線的橫軸為「錯誤接受率」,表示錯誤預測為好客戶的壞客戶比例,其公式為=1-特異度(Specificity):「FP÷(FP+VN)」。

ROC曲線的縱軸「正確接受率」,表示正確預測為好客戶的好客戶比例,又稱為敏銳度(Sensitivity),其公式為=「VP÷(VP+FN)」。

1.2 ROC分析在信用評分卡中的意涵

ROC分析在信用評分卡的的混淆矩陣如下,我們希望FPR的數值越小越好,但又擔心太嚴格的話會導致TPR下降。因此,一般我們會採用Youden index去進行最佳切點的選取,當該點(point)的敏銳度(Sensitivity)+特異度(Specificity)數值為最大時,則為最佳切點。

信用評分卡各表格中的實務解釋如下,套用上面的矩陣,我們希望FPR「實際壞客戶被錯誤預測為好客戶」比例越低越好,而同時TPR「實際好客戶被正確預測為好客戶」的比例越高越好。

2、ROC分析評估方法及標準

一般而言,產出ROC曲線的統計方法包含邏輯式迴歸、決策樹、隨機森林等分類的統計或ML法,而評估ROC曲線的預測力一般會採用AUC(Area under Curve)來表示。

2.1 AUC數學公式

2.1.1 連續變項

當自變數為連續變項時,我們可以採用積分的方式來計算AUC,公式如下。

這表示沿著FPR從0到1對TPR進行積分,計算其在這個區間的面積大小,也就是其累積機率分布。

2.1.2 離散變項

當變數為離散變項時,AUC會採用梯形法進行面積計算,藉此估計其面積總和。

2.1.3 無母數方法Mann Whitney-U test (排序型資料)

在信用評分卡等應用中,常使用無母數方法計算AUC(資料有順序性,例如風險由低到高),這與Wilcoxon-Mann-Whitney統計量有所關聯。

假設有np個正樣本(好客戶)和 nn個負樣本(壞客戶),我們用Logistic 模型分析後給每個樣本計算出一個分數,則AUC等價於正樣本分數高於負樣本分數的概率

3、AUC實務標準

AUC的標準可以參考如下,一般在銀行或是經營貸款業務企業中,AUC需高於0.7甚至是0.8才有實際價值。

0.5:模型無區分能力,等同於隨機猜測(ROC曲線接近對角線)。

0.5 ~ 0.6:模型區分能力較差,幾乎無實際應用價值。

0.6 ~ 0.7:模型有一定區分能力,但性能一般,可能適用於低風險場景。

0.7 ~ 0.8:模型有較好的區分能力,適合大多數信用評分卡應用。

0.8 ~ 0.9:模型性能優秀,能有效區分好壞客戶,適用於高風險控制場景。

0.9 ~ 1.0:模型性能極佳,但需警惕過度擬合,特別是在數據量較小時。

1.0:完美分類(極少見,可能表示過度擬合)。

需要特別注意的是,AUC對類別不平衡數據較為敏感,若資料中正負樣本比例懸殊,需結合其他指標(如Precision-Recall曲線)進行評估才不會有太大的偏誤。SPSS在進階模組中有提供計算ROC跟AUC的功能,需要進行升級安裝才能使用。

以上便是ROC分析在信用評分卡的說明,若有需要都可以與我們聯繫,再請您給我們一個google好評,謝謝。