728x90
반응형

 

 

 

안녕하십니까 다제입니다. 

 

 

저희가 분산 / 편향 트레이드오프를 이야기하면서

과적합과 과소적합에 대해서 알아보았습니다. 

 

 

일단 편향과 분산에 대해서 복습을 해보겠습니다. 

 

 

편향(Bias)는 모델이 너무 복잡해서 복잡한 곡선이

많다는 것은 편향이 높다라고 말할 수 있습니다. 

 

 

분산(variance)는 데이터 SET별로

모델이 얼마나 일관된 성능을 보이는를

나타냅니다. 

 

즉, Regularization은 분산을 감소시켜

일반화 성능을 높이는 기법입니다.

 

 


 

첫째, 과소적합은 어떻게 해결할까요?

간단히 생각하보면 과소적합이라는 말은

모델이 단순하다

선형적이다

라는 말로 대신할 수 있습니다. 

 

이러한 선형적인 모델은 차원을 높이면서

다른 말로는 feature의 수를 높여 

해결할 수 있습니다. 

 


 

둘째, 과적합은 어떻게 해결할까요?

 

과적합을 해결할 수 있는 방법은

4가지가 있습니다.

 

1. 데이터의 양을 늘린다. 

2. Feature의 수를 줄인다.

3. 적절한 Parameter를 찾는다. 

4. Regularization을 이용한다. 

 

저희가 이야기해야할 부분은

4번 방법인 Ridge & Lasso입니다. 

 


 

그럼 이제 진짜 정규화(Ridge & Lasso)에 대해 

이야기 해보겠습니다. 

 

과적합 정규화

출처 : 그림 클릭 

 

 

정규화

-. 정의 

 * 도출된 회귀계수들에게 hyperparameter(람다, 알파)를 이용하여 패널티를 주어

   일반화를 더욱 잘 할 수 있도록 하는 방법론이다. 

 * 앞으로 우리가 예측할 데이터의 오차값는 분산과 편향으로 구성되어 있는데요

   정규화는 분산을 감소시켜 일반화 성능을 높이는 기법이라고 생각하시면 됩니다. 

 

목적 : 과적합을 예방하고자함 

 

 

1) Ridge 

 -. 상대적으로 큰 회귀 계수 값의 예측 영향도를 감소 시키기 위해서

    회귀 계수값을 더 작게 만드는 Regularization 모델

 -. 가설함수  = 손실함수 + 제곱한 세터값들의 함수 * 람파

 -. 제곱한 세타값들로 그래프를 그리면 아래와 같은 파란색 원형으로 그려지게되고

 -. MSE는 녹색으로 구성된 원형을 의미합니다. 

 -. 그 안에 검정색 점들이 패널티 지점과 만나는 지점들이며,

    즉, MSE의  중심에 있는 검정색 점을 만나는게 최적의 MSE를 찾는 것이 된다. 

 -. 평가하는 방법에는 MAE와 R2-score를 사용합니다. 

 -. R2-score는 분산을 기반으로 예측 성능을 평가하는 기법이며,

   실제 값의 분산 대비 예측값의 분산비율을 지표로하며

   1에 가까울수록 예측정확도가 높다는걸 의미하는 score method입니다. 

출처 : 그림클릭하시면 됩니다. 

 

2) Lasso

 -. 예측 영향력이 작은 feature의 회귀계수를 0으로 만들어

    회귀 예측 시 피처가 선택되지 않게 하는 것이 모델 

 -. 가설함수  = 손실함수 + 절대값 처리된 세터값들의 함수 * 람파

 -. 절대값을 가지고 그래프를 그리면 저렇게 마름모 모형이 그려지게 되는데

 -. 나머지는 거의 릿지와 비슷한데 라소에서는 feature가 0이 되어 버리는 현상이 일어나게된다. 

 -. 이에, 자동적으로 feature를 선택하게 되는 경우가 발생되고 

 -. 이러다보니 feature간의 상관관계가 높으면 성능이 저하되는 현상이 발생된다. 

출처 : 그림클릭하시면 됩니다. 

 

3) 차이점

 

사실 위 글로는 릿지와 라소를 모두 정확하게 설명은 할 수 없습니다. 

기하학적 의미와 수학적의미까지 모두 살펴보아야하나.. 

이런 특징이 있다 정도면 알아주시면 좋을 것 같습니다. 

 

저도 정리하는데 한참 걸렸네요

 

글을 읽어주셔서 감사합니다. 

728x90
반응형

+ Recent posts