일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- python
- leetcode
- 선형회귀
- 기초통계
- 주간보고
- yolo
- 코딩테스트
- SQL
- 재미져
- 빅데이터
- 꾸준히
- 리뷰
- 노마드코더
- 부트캠프
- JavaScript
- 매일매일
- selenium
- MYSQL
- 자료구조
- pandas
- Ai
- bootcamp
- 열심히
- 성실히
- Codestates
- 2021
- 독서
- 파이썬
- 딥러닝
- 코드스테이츠
- Today
- Total
목록분류 전체보기 (186)
코딩일기
안녕하십니까 다제입니다. 오늘은 GBM에 대해서 알아보도록 하겠습니다. 해당 자료는 구글링, 고려대 강필성교수님, 이수안연구소, StatQuest를 통해 학습한 내용을 정리한 포스터 입니다. 본 포스터는 머신러닝을 학습하지 않은 분들에게 다소 이질적으로 느껴지실 수 있음을 사전에 안내드립니다. 1. GBM의 개념(Gradient Boost Model) -. 여러 개의 머신러닝으로 구성된 모델은 모집단의 약 80%의 데이터를 학습하고 약 20%를 예측하는데 사용합니다. -. 이때 여러 개의 머신러닝은 순차적으로 구성이 되며, 머신러닝이 예측한 값과 실제 데이터 값 사이의 차이를 "잔차"라고 합니다. -. 첫번째 생성된 머신러닝이 발생시킨 잔차를 두번째 생성된 머신러닝이 학습하게 되며, N번째까지 반복적으로..
안녕하십니까 다제입니다. 지금까지 배웠던 내용에 편향-분산 트레이트오프 관점으로 잠깐 복습해 볼까요? Bagging - 편향↓ 분산↑ 효과를 줌 ( 즉, 편향↑, 분산↓은 데이터에 적용하면 좋음 ) Boosting - 편향↑ 분산↓ 효과를 줌 ( 즉, 편향↓, 분산↑은 데이터에 적용하면 좋음 ) 그럼 Boosting은 어떻게 위와 같은 효과를 주는 살펴보고 그중에서도 AdaBoost가 어떻게 작동하는지에 대해서 알아보도록 하겠습니다. 그러기 위해서는 일단 Bagging과 Boosting의 차이를 알아봐야겠죠? ** 목차 ** 1. Bagging vs Boosting 2. AdaBoost의 개념 3. AdaBoost의 장점 & 단점 1. Bagging vs Boosting -. 공통점 Bagging과 Bo..
안녕하십니까 다제입니다. 오늘은 RandomForest에 대해서 알아보고자 합니다. 해당 포스팅은 1) 고려대학교 강필성 교수님의 수업자료 2) 코드스테이츠 부트캠프 3) StatQuest 유튜브 등을 참고하여 제가 이해한 내용을 바탕으로 포스팅을 진행하였음을 사전 안내드립니다. ※ 이미지 출처 : github.com/pilsung-kang/Business-Analytics-ITS504- RandomForest에서는 bagging과 달라진 점은 트리를 형성 할 때 feature를 모두 사용하지 않는다는 점입니다. 잉? 이게 무슨 말이야? feature를 모두 사용해서 만들어야 조금이나마 강력한 모델을 만들 수 있잖아 라고 반문하실 수 있습니다. 그런데 RandomForest에서는 강한 모델을 만드는 게 ..
안녕하십니까 다제입니다. 오늘은 Ensseble에서 Bagging에 대해서 이야기를 나누어 볼까합니다. 우리의 목적은 좋은 앙상블 모델을 만들기 위해서 모델의 다양성과 개별적인 모델도 쓸만한 성능을 내는 앙상블을 찾기 위한 과정입니다. 해당 포스팅은 1) 고려대학교 강필성 교수님의 수업자료 2) 코드스테이츠 부트캠프 3) StatQuest 유튜브 등을 참고하여 제가 이해한 내용을 바탕으로 포스팅을 진행하였음을 사전 안내드립니다. ※ 이미지 출처 : github.com/pilsung-kang/Business-Analytics-ITS504- ** 목차 ** -. Bagging의 출연배경 -. Bagging의 개념과 장점 -. Bagging의 단점 ** 결론 ** 간단하게 Bagging이 무엇인지 알고 싶은 ..
안녕하십니까 다제입니다. 오늘은 앙상블에 대해서 이야기를 나누어 볼까합니다. 해당 포스팅은 고려대학교 강필성 교수님의 수업자료를 참고하고 제가 이해한 내용을 바탕으로 포스팅을 진행하였음을 사전 안내드립니다. 언제나 그랬듯 코딩의 발전은 나누고 공유하고 응용하고 토론하는 과정속에서 빠른 속도로 성장했다고 생각합니다. 이미지 출처 : github.com/pilsung-kang/Business-Analytics-ITS504- ** 목차 ** -. 앙상블의 출연배경 -. 시각화를 통한 분산-편향 이해하기 -. 좋은 앙상블의 조건 & 종류 -. 수학식을 통한 앙상블 이해하기 1. 앙상블의 출연배경 -. 저희는 그동안 선형회귀, 분류, 트리모델 등 다양한 모델을 학습하였습니다. -. 하지만, 언제나 에러와 분산-편..
안녕하십니까 다제입니다. 오늘은 Logistic regression에 대해서 알아보고자 합니다. 전부라고는 할 수 없지만, 머신 러닝의 많은 문제는 분류 또는 회귀에 속합니다. 로지스틱 회귀는 회귀이기만 분류 문제를 푸는 알고리즘에 해당됩니다. 또한 분류는 이진분류(Binary Classification)와 다중 클래스 분류(multi class classification)으로 나뉩니다. 로지스틱 회귀는 이진분류에 주로 사용이 됩니다. 여기서 왜 회귀인지 궁금하실텐데요? 로지스틱 회귀(Logistic Regression)는 회귀를 사용하여 데이터가 어떤 범주에 속할 확률을 0에서 1 사이의 값으로 예측하고 그 확률에 따라 가능성이 더 높은 범주에 속하는 것으로 분류해주는 지도 학습 알고리즘입니다. 아래 ..
안녕하십니까 다제입니다. 저희가 분산 / 편향 트레이드오프를 이야기하면서 과적합과 과소적합에 대해서 알아보았습니다. 일단 편향과 분산에 대해서 복습을 해보겠습니다. 편향(Bias)는 모델이 너무 복잡해서 복잡한 곡선이 많다는 것은 편향이 높다라고 말할 수 있습니다. 분산(variance)는 데이터 SET별로 모델이 얼마나 일관된 성능을 보이는를 나타냅니다. 즉, Regularization은 분산을 감소시켜 일반화 성능을 높이는 기법입니다. 첫째, 과소적합은 어떻게 해결할까요? 간단히 생각하보면 과소적합이라는 말은 모델이 단순하다 선형적이다 라는 말로 대신할 수 있습니다. 이러한 선형적인 모델은 차원을 높이면서 다른 말로는 feature의 수를 높여 해결할 수 있습니다. 둘째, 과적합은 어떻게 해결할까요?..
※ 출처 : 해당 내용은 유튜브의 todaycode님의 영상을 참고하였습니다. 더 자세한 내용은 유튜브를 참고 부탁드립니다. 데이터 EDA 연습3¶ ★개요★¶ 1. 머신러닝 실습 진행중 시각화 및 EDA를 진행할 때¶ 2. 미숙한 나의 모습을 발견하여 EDA에 대한 추가적인 공부가 필요하다고 생각하였다.¶ 3. 이에, 무작정 EDA를 100개만 따라해보기로 하였다.¶ 4. 오늘은 3개의 EDA를 따라한 실습내용을 포스팅하고자 합니다.¶ ★학습한 내용★¶ 표준화(standardization) : 데이터가 평균으로 부터 얼마나 떨어져 있는지 나타내는 값으로 변환 (Z-score 표준화) : (측정값 - 평균) / 표준편차 정규화(normalization) : 데이터의 상대적 크기에 대한 영향을 줄이기 위해 ..
안녕하십니까 다제입니다. 오늘은 선형변환에 대해서 알아보도록 하겠습니다. 먼저 변환이란? 입력을 받고 결과물을 반환하는 그 무엇을 변환이라고 합니다. 선형대수의 맥락에서 보자면 input vector를 넣으면 output vector나오지요 그러면 머하러 함수라는 말을 두고 변환이라는 말을 썼을까? 일단 시각적으로 볼때 변환이 선형적이다는 말을 두가지 속성을 의미한다. 1) 모든 선들은 변환 이후에도 휘지 않고 직선이어야 하며 2) 원점은 변환 이후에도 여전히 원점이여야 합니다. 3) 배수를 유지합니다. input vector가 output vector로 변화는지 알려면 두 개의 기저벡터가 어떻게 변하는지만 알면 해결이 됩니다. 선형방정식 계라는 말은 3x + 5y + 4z = 1 5x + 9y + 2z..
안녕하십니까 다제입니다. 오늘은 선형회귀의 중요한 키워드들을 공부해보고자 합니다. 백그라운드 개념으로 필수적이다고 생각되는 가설, 손실함수 & 경사하강법에 대해서 배워보도록 하겠습니다. 저는 경사하강법을 이해하기 위해 미분과 행렬을 배운다고 해도 과언이 아니라고 생각합니다. 1. 경사하강법 저희는 모델(함수)를 만들고 MSE or MAE라는 방법으로 성능을 평가합니다. MSE or MAE의 결과 값이 크면 성능이 안좋고 작으면 성능이 좋다는 걸 알 수 있습니다. 그렇다면 우리는 미분을 통해 특정 지점에서의 순간변화율이 0인 지점을 찾는다면 그 부분이 이 모델에서 성능이 가장 좋은 지점일 것이다. 미분이란? 즉, 우리의 모델과 라이브러리가 고차원의 DataFrame을 계속 미분해가면서 기울기가 가파르지 않..