Ridge Regression

Yeju Ham
2 min readMay 3, 2021

--

1. How Ridge Regression handle with Overfitting

다중회귀선은 어떤 해(여기서m)가 얼마만큼의 중요성을 가지고 있는지 정하지 못한다. 이를 알기 위해서는 데이터를 정규화하는 과정이 필요한데, 그렇게 정규화를 한 방법이 Ridge Regression이다. 이 Ridge Regression은 회귀선이 훈련데이터에 덜 적합되게 한다. 즉 과적합을 줄이는 역할을 하는데, 그 이유는 Ridge는모델의 복잡도를 줄이기 때문이다. (특성의 개수를 줄이거나 모델을 좀 더 단순한 모양으로 적합하게 하는 것이다) Ridge Regression은 편향을 저금 더하고 분산을 줄이는 정규화를 진행한다. 정규화의 강도를 조절해주는 패널티값은 람다이다. 람다(alpha)가 0일 때, Ridge회귀는 선형회귀와 같은 그래프 형태를 띄는 같은 모델이 되고, 람다값이 커질수록 직선의 기울기가 0에 가까워지며 평균기준 모델과 비슷해진다. 무한일 때 선형회귀가 0이되는 성질이 있다.

2. How to find the optimum Alpha

이 패널티 값은 그렇다면 어떻게 구해야 할까?

람다값을 구하는 것은 교차검증을 통해서 구한다. RidgeCV는 sklearn에 내장된 교차검증 방법이다.

3. What is better than OLS

Ridge는 정규화를 통해 특이값으로 인한 과도한 기울기를 보정해주기 때문에 이상치의 영향을 덜 받는다. 또, 영향력이 낮은 특성의 회귀계수의 값을 감소시켜 특징선택의 효과를 가지고 온다. 과적합도 선형회귀보다 덜 된다.

--

--

Yeju Ham
Yeju Ham

Written by Yeju Ham

learner, writer, traveler, data science beginner with the whole passion

No responses yet