[DataScience] Ridge & Rasso regression (feat. L1, L2 Regularization)

250x250

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

코딩일기

[DataScience] Ridge & Rasso regression (feat. L1, L2 Regularization) 본문

Code/머신러닝(ML)

[DataScience] Ridge & Rasso regression (feat. L1, L2 Regularization)

daje 2021. 2. 13. 14:40

728x90

안녕하십니까 다제입니다.

저희가 분산 / 편향 트레이드오프를 이야기하면서

과적합과 과소적합에 대해서 알아보았습니다.

일단 편향과 분산에 대해서 복습을 해보겠습니다.

편향(Bias)는 모델이 너무 복잡해서 복잡한 곡선이

많다는 것은 편향이 높다라고 말할 수 있습니다.

분산(variance)는 데이터 SET별로

모델이 얼마나 일관된 성능을 보이는를

나타냅니다.

즉, Regularization은 분산을 감소시켜

일반화 성능을 높이는 기법입니다.

첫째, 과소적합은 어떻게 해결할까요?

간단히 생각하보면 과소적합이라는 말은

모델이 단순하다

선형적이다

라는 말로 대신할 수 있습니다.

이러한 선형적인 모델은 차원을 높이면서

다른 말로는 feature의 수를 높여

해결할 수 있습니다.

둘째, 과적합은 어떻게 해결할까요?

과적합을 해결할 수 있는 방법은

4가지가 있습니다.

1. 데이터의 양을 늘린다.

2. Feature의 수를 줄인다.

3. 적절한 Parameter를 찾는다.

4. Regularization을 이용한다.

저희가 이야기해야할 부분은

4번 방법인 Ridge & Lasso입니다.

그럼 이제 진짜 정규화(Ridge & Lasso)에 대해

이야기 해보겠습니다.


과적합	정규화

출처 : 그림 클릭

정규화

-. 정의

* 도출된 회귀계수들에게 hyperparameter(람다, 알파)를 이용하여 패널티를 주어

일반화를 더욱 잘 할 수 있도록 하는 방법론이다.

* 앞으로 우리가 예측할 데이터의 오차값는 분산과 편향으로 구성되어 있는데요

정규화는 분산을 감소시켜 일반화 성능을 높이는 기법이라고 생각하시면 됩니다.

목적 : 과적합을 예방하고자함

1) Ridge

-. 상대적으로 큰 회귀 계수 값의 예측 영향도를 감소 시키기 위해서

회귀 계수값을 더 작게 만드는 Regularization 모델

-. 가설함수 = 손실함수 + 제곱한 세터값들의 함수 * 람파

-. 제곱한 세타값들로 그래프를 그리면 아래와 같은 파란색 원형으로 그려지게되고

-. MSE는 녹색으로 구성된 원형을 의미합니다.

-. 그 안에 검정색 점들이 패널티 지점과 만나는 지점들이며,

즉, MSE의 중심에 있는 검정색 점을 만나는게 최적의 MSE를 찾는 것이 된다.

-. 평가하는 방법에는 MAE와 R2-score를 사용합니다.

-. R2-score는 분산을 기반으로 예측 성능을 평가하는 기법이며,

실제 값의 분산 대비 예측값의 분산비율을 지표로하며

1에 가까울수록 예측정확도가 높다는걸 의미하는 score method입니다.

2) Lasso

-. 예측 영향력이 작은 feature의 회귀계수를 0으로 만들어

회귀 예측 시 피처가 선택되지 않게 하는 것이 모델

-. 가설함수 = 손실함수 + 절대값 처리된 세터값들의 함수 * 람파

-. 절대값을 가지고 그래프를 그리면 저렇게 마름모 모형이 그려지게 되는데

-. 나머지는 거의 릿지와 비슷한데 라소에서는 feature가 0이 되어 버리는 현상이 일어나게된다.

-. 이에, 자동적으로 feature를 선택하게 되는 경우가 발생되고

-. 이러다보니 feature간의 상관관계가 높으면 성능이 저하되는 현상이 발생된다.

3) 차이점

사실 위 글로는 릿지와 라소를 모두 정확하게 설명은 할 수 없습니다.

기하학적 의미와 수학적의미까지 모두 살펴보아야하나..

이런 특징이 있다 정도면 알아주시면 좋을 것 같습니다.

저도 정리하는데 한참 걸렸네요

글을 읽어주셔서 감사합니다.

728x90

저작자표시

'Code > 머신러닝(ML)' 카테고리의 다른 글

[Ensseble] 앙상블을 배우는 이유( feat. Bias-Variance Decomposition) (0)	2021.02.17
로지스틱 회귀(feat. Logistic regression) (0)	2021.02.13
[EDA] 무작정 따라하는 EDA3 (0)	2021.02.07
[DataScience] 선형변환이란? (0)	2021.02.06
[DataScience] 가설함수, 손실함수, 경사하강법(feat. Linear Regression) (0)	2021.02.06

'Code/머신러닝(ML)' Related Articles

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

코딩일기

코딩일기

[DataScience] Ridge & Rasso regression (feat. L1, L2 Regularization) 본문

[DataScience] Ridge & Rasso regression (feat. L1, L2 Regularization)

'Code > 머신러닝(ML)' 카테고리의 다른 글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역