脊迴歸(ridge regression)是一種線性迴歸的正規化(regularization)方法,用於處理多元共線性的問題(multicollinearity)。正規化是在原先迴歸模型的loss function(通常是ols square error或交叉熵cross entropy)後面額外增加一個正規化的參數設定(term),通常這個term不納入bias,因為bias無助於讓解決迴歸模型共線性或平滑的問題。

在處理一般多元迴歸OLS共線性或過度擬合(overfitting)問題時,脊迴歸(ridge regression)通過在模型中加入L2正規化項(將所有迴歸係數取平方和),限制模型參數的大小,提升模型穩定性與泛化能力。

一、脊迴歸(ridge regression)公式說明

我們可以透過下面的公式理解脊迴歸(ridge regression)的概念,首先一般的OLS方程式的殘差估計式(或loss function)如下

而Ridge regression則額外增加了一個L2正規項,如下

其中Yi為實際數值, hat為預測值,λ為正規化參數(一般而言>0,可從10的-3至+3次方調整),當λ值越大,則疊代計算出來的迴歸係數越小(因為在Loss function中佔比越高),因此一般而言會需要透過多次的模擬計算來取得最佳的λ正規化參數值。

以下我們補充脊迴歸的矩陣形式,第一個參數為上述公式Loss fuction的殘差項,第二個參數為L2正規項。

Ridge 迴歸係數的精確解如下,由於λ值在逆矩陣中,因此當λ值越大,迴歸係數會越小,同上述的Loss function所示,此處僅是以矩陣方式讓大家更好理解。

二、脊迴歸(ridge regression)特點

相較於另一個常用的共線性處理方法(Lasso regression),脊迴歸(ridge regression)的特點有主要三項,需要使用者特別注意。

1、保存了所有變數,僅將係數降低(接近為0)

2、計算效率高

3、對Outlier很敏感

三、SPSS 分析需求

脊迴歸(ridge regression)需要透過SPSS 30版以上的軟體才能進行分析,且分析前需要透過判定模型的型態(線性、非線性),接著根據模型進行相關參數設定。此外,此功能需安裝Python才能完全在SPSS上使用。

以上是Ridge regression的相關說明,如果對您有幫助的話,再請您給我們一個google好評喔。