일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 재미져
- 딥러닝
- 빅데이터
- 열심히
- 매일매일
- 주간보고
- 선형회귀
- bootcamp
- 독서
- 코딩테스트
- 리뷰
- Codestates
- python
- 부트캠프
- 자료구조
- 노마드코더
- SQL
- 코드스테이츠
- JavaScript
- 기초통계
- leetcode
- 꾸준히
- selenium
- 2021
- pandas
- MYSQL
- 파이썬
- Ai
- yolo
- 성실히
- Today
- Total
코딩일기
[DataScience] Ridge & Rasso regression (feat. L1, L2 Regularization) 본문
[DataScience] Ridge & Rasso regression (feat. L1, L2 Regularization)
daje 2021. 2. 13. 14:40
안녕하십니까 다제입니다.
저희가 분산 / 편향 트레이드오프를 이야기하면서
과적합과 과소적합에 대해서 알아보았습니다.
일단 편향과 분산에 대해서 복습을 해보겠습니다.
편향(Bias)는 모델이 너무 복잡해서 복잡한 곡선이
많다는 것은 편향이 높다라고 말할 수 있습니다.
분산(variance)는 데이터 SET별로
모델이 얼마나 일관된 성능을 보이는를
나타냅니다.
즉, Regularization은 분산을 감소시켜
일반화 성능을 높이는 기법입니다.
첫째, 과소적합은 어떻게 해결할까요?
간단히 생각하보면 과소적합이라는 말은
모델이 단순하다
선형적이다
라는 말로 대신할 수 있습니다.
이러한 선형적인 모델은 차원을 높이면서
다른 말로는 feature의 수를 높여
해결할 수 있습니다.
둘째, 과적합은 어떻게 해결할까요?
과적합을 해결할 수 있는 방법은
4가지가 있습니다.
1. 데이터의 양을 늘린다.
2. Feature의 수를 줄인다.
3. 적절한 Parameter를 찾는다.
4. Regularization을 이용한다.
저희가 이야기해야할 부분은
4번 방법인 Ridge & Lasso입니다.
그럼 이제 진짜 정규화(Ridge & Lasso)에 대해
이야기 해보겠습니다.
과적합 | 정규화 |
출처 : 그림 클릭
정규화
-. 정의
* 도출된 회귀계수들에게 hyperparameter(람다, 알파)를 이용하여 패널티를 주어
일반화를 더욱 잘 할 수 있도록 하는 방법론이다.
* 앞으로 우리가 예측할 데이터의 오차값는 분산과 편향으로 구성되어 있는데요
정규화는 분산을 감소시켜 일반화 성능을 높이는 기법이라고 생각하시면 됩니다.
목적 : 과적합을 예방하고자함
1) Ridge
-. 상대적으로 큰 회귀 계수 값의 예측 영향도를 감소 시키기 위해서
회귀 계수값을 더 작게 만드는 Regularization 모델
-. 가설함수 = 손실함수 + 제곱한 세터값들의 함수 * 람파
-. 제곱한 세타값들로 그래프를 그리면 아래와 같은 파란색 원형으로 그려지게되고
-. MSE는 녹색으로 구성된 원형을 의미합니다.
-. 그 안에 검정색 점들이 패널티 지점과 만나는 지점들이며,
즉, MSE의 중심에 있는 검정색 점을 만나는게 최적의 MSE를 찾는 것이 된다.
-. 평가하는 방법에는 MAE와 R2-score를 사용합니다.
-. R2-score는 분산을 기반으로 예측 성능을 평가하는 기법이며,
실제 값의 분산 대비 예측값의 분산비율을 지표로하며
1에 가까울수록 예측정확도가 높다는걸 의미하는 score method입니다.
2) Lasso
-. 예측 영향력이 작은 feature의 회귀계수를 0으로 만들어
회귀 예측 시 피처가 선택되지 않게 하는 것이 모델
-. 가설함수 = 손실함수 + 절대값 처리된 세터값들의 함수 * 람파
-. 절대값을 가지고 그래프를 그리면 저렇게 마름모 모형이 그려지게 되는데
-. 나머지는 거의 릿지와 비슷한데 라소에서는 feature가 0이 되어 버리는 현상이 일어나게된다.
-. 이에, 자동적으로 feature를 선택하게 되는 경우가 발생되고
-. 이러다보니 feature간의 상관관계가 높으면 성능이 저하되는 현상이 발생된다.
3) 차이점
사실 위 글로는 릿지와 라소를 모두 정확하게 설명은 할 수 없습니다.
기하학적 의미와 수학적의미까지 모두 살펴보아야하나..
이런 특징이 있다 정도면 알아주시면 좋을 것 같습니다.
저도 정리하는데 한참 걸렸네요
글을 읽어주셔서 감사합니다.
'Code > 머신러닝(ML)' 카테고리의 다른 글
[Ensseble] 앙상블을 배우는 이유( feat. Bias-Variance Decomposition) (0) | 2021.02.17 |
---|---|
로지스틱 회귀(feat. Logistic regression) (0) | 2021.02.13 |
[EDA] 무작정 따라하는 EDA3 (0) | 2021.02.07 |
[DataScience] 선형변환이란? (0) | 2021.02.06 |
[DataScience] 가설함수, 손실함수, 경사하강법(feat. Linear Regression) (0) | 2021.02.06 |