Gini係數(或Gini指數)是信用評分卡模型中常用的模型評估指標,主要用於衡量模型對好客戶(無違約)與壞客戶(違約)的區分能力。Gini係數源自經濟學中的收入分配不平等衡量,但在信用風險建模中被用於評估模型預測的準確性和區分效果。

1、Gini係數定義

在信用評分卡中,Gini係數通常與ROC曲線(Receiver Operating Characteristic Curve)和AUC(Area Under the Curve)相關,定義公式為:

1.1 AUC:

ROC曲線下的面積,範圍為 [0.5, 1],表示模型的總體區分能力(0.5表示隨機猜測,1表示完美區分)。

1.2 Gini係數:

範圍為 [0, 1],值越大表示模型區分好壞客戶的能力越強。

1.3 Lorenz曲線

Gini係數也可以通過Lorenz曲線來理解:

Lorenz曲線繪製了按信用分數排序後,「累積壞客戶比例(縱軸)」與「累積客戶比例(橫軸)」的關係。Gini係數表示Lorenz曲線與對角線(隨機模型)之間的面積,藉此反映模型的預測能力。

Lorenz曲線如下圖,Gini係數為=A/(A+B)

在傳統的Lorenz曲線中,橫軸是「按收入排序的累積母體比例」,縱軸是「累積收入比例」,由此可知若低收入群僅占了較少的收入,那Lorenz曲線就會變得更陡峭,Gini係數就會更大。

在信用評分卡的概念中,橫軸為「按風險由小到大排序的累積客戶比例」,縱軸為「累積壞客戶比例」,所以當信用風險評估的模型區別度夠高時,越高風險的客戶違約率會越大,Lorenz曲線的面積就會更大。

2、與KS檢定的比較

KS檢定會識別兩個CDF分布的最大差異點(例如在分數580附近,壞客戶累積比例為1.0,好客戶為0),KS值可能接近0.6-0.7。從這個角度來說,KS檢定提供的是兩個CDF水平垂直最大距離的呈現,相對來說比較片面一點。

Lorenz曲線提供更全面的視角,顯示整個分數範圍的區分效果,從這個角度來說,Gini係數綜合了所有資料區間的情況,在偵測上比較全面一些。

3、實務操作

在進行GINI係數的計算時,我們會有以下步驟

3.1 計算信用風險分數

透過邏輯式迴歸進行信用風險分數的計算,詳情請參考前文信用評分卡的分析步驟。

3.2排序信用風險分數

這個部分如果程式有設定就可以不用特別進行。

3.3進行AUC及Scatter plot分析

將信用風險分數與違約率進行AUC分析及散布圖分析,這個部分在SPSS進階模組中可以取得。

以上為GINI係數在信用評分卡中的相關說明,若有需求再請與我們聯繫,也請給我們一個google好評,謝謝~