일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 독서
- 코드스테이츠
- 열심히
- Ai
- 꾸준히
- bootcamp
- 부트캠프
- 2021
- 리뷰
- 파이썬
- 주간보고
- SQL
- JavaScript
- Codestates
- selenium
- 빅데이터
- 선형회귀
- 코딩테스트
- 매일매일
- MYSQL
- 자료구조
- 노마드코더
- 기초통계
- 딥러닝
- 재미져
- leetcode
- yolo
- python
- pandas
- 성실히
- Today
- Total
목록Code/머신러닝(ML) (31)
코딩일기
안녕하십니까 다제입니다. 오늘은 지난 시간에 이어 weight & bias sweeps에 대한 기능을 알아보도록 하겠습니다. 지난 번 글을 못보신 분들은 아래 링크를 참고해주시면 감사드리겠습니다. 2021.12.07 - [분류 전체보기] - [머신러닝 파이프라인] HPO W&B Sweeps(feat. ) [머신러닝 파이프라인] HPO W&B Sweeps(feat. ) 코딩일기 [머신러닝 파이프라인] HPO W&B Sweeps(feat. ) 본문 카테고리 없음 [머신러닝 파이프라인] HPO W&B Sweeps(feat. ) J.daje J.daje 2021. 12. 7. 23:56 Prev 1 2 3 4 5 6 ··· 278 Next daje0601.tistory.com 1. 학습목표 -. HPO(Hype..
안녕하십니까 다제입니다. 오늘은 머신러닝 파이프라인을 쉽고 유용하게 관리할 수 있는 툴을 소개하고자 합니다. 해당 내용은 inflearn에서 수업을 듣고 제가 직접 정리한 내용입니다. Tensorflow의 Tensorboard와 비슷한데, 이 도구는 Framework indepedent한 성격을 지니고 있어 Tensorflow, pytorch 등에서도 자유롭게 사용할 수 있습니다. 1. 실험관리 개요 -. 실험관리를 통해 실험내역을 체계적으로 관리하고자 합니다. -. 머신러닝은 열심히하고 시간을 투자한다고 해서 성공하지 않습니다. 실패를 했다면 그 실패 결과를 가지고도 결과보고서를 만들고 성과로 입증하는 과정이 필요합니다. 이에 실험관리는 필수입니다. 2. Weights and Biases 소개 -. W..
안녕하십니까 다제입니다. 오늘은 전통 통계와 머신러닝의 차이점이 무엇인지에 대해서 생각해보았습니다. 해당 포스팅은 towards blog post, cognitive class youtube 영상을 참고하여 작성되었습니다. ◆ 결론 -. 통계와 기계학습의 가장 큰 차이점은 설명 가능성입니다. * 여기에서 말하는 설명 가능성이란, 수학적으로 증명이 가능하는 설명 가능성을 의미합니다. -. 통계는 수학적으로 설명이 가능하나 기계학습은 아직 수학적으로 모든 것이 설명 가능하지 않습니다. ◆ 개요 -. 머신러닝 학습 중 통계를 배제하고 이야기할 수 없었습니다. -. 이에, 각각의 차이점에 대해서 알아보는 시간을 갖고자 합니다. ◆ 정의 -. 기계학습 : 표준 프로그래밍 방식에 의존하지 않고 데이터에서 학습할 수..
안녕하십니까 다제입니다. 오늘은 GBM에 대해서 알아보도록 하겠습니다. 해당 자료는 구글링, 고려대 강필성교수님, 이수안연구소, StatQuest를 통해 학습한 내용을 정리한 포스터 입니다. 본 포스터는 머신러닝을 학습하지 않은 분들에게 다소 이질적으로 느껴지실 수 있음을 사전에 안내드립니다. 1. GBM의 개념(Gradient Boost Model) -. 여러 개의 머신러닝으로 구성된 모델은 모집단의 약 80%의 데이터를 학습하고 약 20%를 예측하는데 사용합니다. -. 이때 여러 개의 머신러닝은 순차적으로 구성이 되며, 머신러닝이 예측한 값과 실제 데이터 값 사이의 차이를 "잔차"라고 합니다. -. 첫번째 생성된 머신러닝이 발생시킨 잔차를 두번째 생성된 머신러닝이 학습하게 되며, N번째까지 반복적으로..
안녕하십니까 다제입니다. 지금까지 배웠던 내용에 편향-분산 트레이트오프 관점으로 잠깐 복습해 볼까요? Bagging - 편향↓ 분산↑ 효과를 줌 ( 즉, 편향↑, 분산↓은 데이터에 적용하면 좋음 ) Boosting - 편향↑ 분산↓ 효과를 줌 ( 즉, 편향↓, 분산↑은 데이터에 적용하면 좋음 ) 그럼 Boosting은 어떻게 위와 같은 효과를 주는 살펴보고 그중에서도 AdaBoost가 어떻게 작동하는지에 대해서 알아보도록 하겠습니다. 그러기 위해서는 일단 Bagging과 Boosting의 차이를 알아봐야겠죠? ** 목차 ** 1. Bagging vs Boosting 2. AdaBoost의 개념 3. AdaBoost의 장점 & 단점 1. Bagging vs Boosting -. 공통점 Bagging과 Bo..
안녕하십니까 다제입니다. 오늘은 RandomForest에 대해서 알아보고자 합니다. 해당 포스팅은 1) 고려대학교 강필성 교수님의 수업자료 2) 코드스테이츠 부트캠프 3) StatQuest 유튜브 등을 참고하여 제가 이해한 내용을 바탕으로 포스팅을 진행하였음을 사전 안내드립니다. ※ 이미지 출처 : github.com/pilsung-kang/Business-Analytics-ITS504- RandomForest에서는 bagging과 달라진 점은 트리를 형성 할 때 feature를 모두 사용하지 않는다는 점입니다. 잉? 이게 무슨 말이야? feature를 모두 사용해서 만들어야 조금이나마 강력한 모델을 만들 수 있잖아 라고 반문하실 수 있습니다. 그런데 RandomForest에서는 강한 모델을 만드는 게 ..
안녕하십니까 다제입니다. 오늘은 Ensseble에서 Bagging에 대해서 이야기를 나누어 볼까합니다. 우리의 목적은 좋은 앙상블 모델을 만들기 위해서 모델의 다양성과 개별적인 모델도 쓸만한 성능을 내는 앙상블을 찾기 위한 과정입니다. 해당 포스팅은 1) 고려대학교 강필성 교수님의 수업자료 2) 코드스테이츠 부트캠프 3) StatQuest 유튜브 등을 참고하여 제가 이해한 내용을 바탕으로 포스팅을 진행하였음을 사전 안내드립니다. ※ 이미지 출처 : github.com/pilsung-kang/Business-Analytics-ITS504- ** 목차 ** -. Bagging의 출연배경 -. Bagging의 개념과 장점 -. Bagging의 단점 ** 결론 ** 간단하게 Bagging이 무엇인지 알고 싶은 ..
안녕하십니까 다제입니다. 오늘은 앙상블에 대해서 이야기를 나누어 볼까합니다. 해당 포스팅은 고려대학교 강필성 교수님의 수업자료를 참고하고 제가 이해한 내용을 바탕으로 포스팅을 진행하였음을 사전 안내드립니다. 언제나 그랬듯 코딩의 발전은 나누고 공유하고 응용하고 토론하는 과정속에서 빠른 속도로 성장했다고 생각합니다. 이미지 출처 : github.com/pilsung-kang/Business-Analytics-ITS504- ** 목차 ** -. 앙상블의 출연배경 -. 시각화를 통한 분산-편향 이해하기 -. 좋은 앙상블의 조건 & 종류 -. 수학식을 통한 앙상블 이해하기 1. 앙상블의 출연배경 -. 저희는 그동안 선형회귀, 분류, 트리모델 등 다양한 모델을 학습하였습니다. -. 하지만, 언제나 에러와 분산-편..
안녕하십니까 다제입니다. 오늘은 Logistic regression에 대해서 알아보고자 합니다. 전부라고는 할 수 없지만, 머신 러닝의 많은 문제는 분류 또는 회귀에 속합니다. 로지스틱 회귀는 회귀이기만 분류 문제를 푸는 알고리즘에 해당됩니다. 또한 분류는 이진분류(Binary Classification)와 다중 클래스 분류(multi class classification)으로 나뉩니다. 로지스틱 회귀는 이진분류에 주로 사용이 됩니다. 여기서 왜 회귀인지 궁금하실텐데요? 로지스틱 회귀(Logistic Regression)는 회귀를 사용하여 데이터가 어떤 범주에 속할 확률을 0에서 1 사이의 값으로 예측하고 그 확률에 따라 가능성이 더 높은 범주에 속하는 것으로 분류해주는 지도 학습 알고리즘입니다. 아래 ..
안녕하십니까 다제입니다. 저희가 분산 / 편향 트레이드오프를 이야기하면서 과적합과 과소적합에 대해서 알아보았습니다. 일단 편향과 분산에 대해서 복습을 해보겠습니다. 편향(Bias)는 모델이 너무 복잡해서 복잡한 곡선이 많다는 것은 편향이 높다라고 말할 수 있습니다. 분산(variance)는 데이터 SET별로 모델이 얼마나 일관된 성능을 보이는를 나타냅니다. 즉, Regularization은 분산을 감소시켜 일반화 성능을 높이는 기법입니다. 첫째, 과소적합은 어떻게 해결할까요? 간단히 생각하보면 과소적합이라는 말은 모델이 단순하다 선형적이다 라는 말로 대신할 수 있습니다. 이러한 선형적인 모델은 차원을 높이면서 다른 말로는 feature의 수를 높여 해결할 수 있습니다. 둘째, 과적합은 어떻게 해결할까요?..