Gini係數(或Gini指數)是信用評分卡模型中常用的模型評估指標,主要用於衡量模型對好客戶(無違約)與壞客戶(違約)的區分能力。Gini係數源自經濟學中的收入分配不平等衡量,但在信用風險建模中被用於評估模型預測的準確性和區分效果。
1、Gini係數定義
在信用評分卡中,Gini係數通常與ROC曲線(Receiver Operating Characteristic Curve)和AUC(Area Under the Curve)相關,定義公式為:
1.1 AUC:
ROC曲線下的面積,範圍為 [0.5, 1],表示模型的總體區分能力(0.5表示隨機猜測,1表示完美區分)。
1.2 Gini係數:
範圍為 [0, 1],值越大表示模型區分好壞客戶的能力越強。
1.3 Lorenz曲線
Gini係數也可以通過Lorenz曲線來理解:
Lorenz曲線繪製了按信用分數排序後,「累積壞客戶比例(縱軸)」與「累積客戶比例(橫軸)」的關係。Gini係數表示Lorenz曲線與對角線(隨機模型)之間的面積,藉此反映模型的預測能力。
Lorenz曲線如下圖,Gini係數為=A/(A+B)
在傳統的Lorenz曲線中,橫軸是「按收入排序的累積母體比例」,縱軸是「累積收入比例」,由此可知若低收入群僅占了較少的收入,那Lorenz曲線就會變得更陡峭,Gini係數就會更大。
在信用評分卡的概念中,橫軸為「按風險由小到大排序的累積客戶比例」,縱軸為「累積壞客戶比例」,所以當信用風險評估的模型區別度夠高時,越高風險的客戶違約率會越大,Lorenz曲線的面積就會更大。
2、與KS檢定的比較
KS檢定會識別兩個CDF分布的最大差異點(例如在分數580附近,壞客戶累積比例為1.0,好客戶為0),KS值可能接近0.6-0.7。從這個角度來說,KS檢定提供的是兩個CDF水平垂直最大距離的呈現,相對來說比較片面一點。
Lorenz曲線提供更全面的視角,顯示整個分數範圍的區分效果,從這個角度來說,Gini係數綜合了所有資料區間的情況,在偵測上比較全面一些。
3、實務操作
在進行GINI係數的計算時,我們會有以下步驟
3.1 計算信用風險分數
透過邏輯式迴歸進行信用風險分數的計算,詳情請參考前文信用評分卡的分析步驟。
3.2排序信用風險分數
這個部分如果程式有設定就可以不用特別進行。
3.3進行AUC及Scatter plot分析
將信用風險分數與違約率進行AUC分析及散布圖分析,這個部分在SPSS進階模組中可以取得。
以上為GINI係數在信用評分卡中的相關說明,若有需求再請與我們聯繫,也請給我們一個google好評,謝謝~

