일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 성실히
- 기초통계
- 코드스테이츠
- MYSQL
- 파이썬
- bootcamp
- 빅데이터
- 부트캠프
- 매일매일
- 선형회귀
- SQL
- leetcode
- pandas
- yolo
- selenium
- 2021
- 독서
- 재미져
- Codestates
- 열심히
- 꾸준히
- 딥러닝
- 리뷰
- 코딩테스트
- JavaScript
- 자료구조
- 주간보고
- python
- 노마드코더
- Ai
- Today
- Total
목록Code/머신러닝(ML) (31)
코딩일기
안녕하십니까 다제입니다. 오늘은 머신러닝을 위한 반드시 알아야할 미분에 대해서 알아보도록 하겠습니다. 먼저 미분이 왜 필요한지?? 미분은 무엇인지?? 에 대해 이야기를 해야할 거 같아요~ 머신러닝에서 미분의 필요성 우리는 머신러닝이 경험을 통해 특정 작업에 대한 성능이 좋아지는 프로그램이라는 것을 알고 있습니다. 그렇다면 해당 머신러닝의 성능이 좋은지 안좋은지를 어떻게 알 수 있을까요? 결론부터 말씀드리면, (미분)함수를 통해 해당 머신러닝의 성능평가를 진행하게 됩니다. 정말 단순화하여 설명드려보겠습니다. 위 2차 그래프에서 극소점으로 내려갈수록 성능이 좋아진다고 가정해보겠습니다. 그렇다면 현재 위치를 확인한 후 극소점이 있는 방향으로 가야겠지요? 이때 기울기를 가지고 덜 가파른 지점으로 이동을 하게 됩..
안녕하십니까 다제입니다. 오늘은 선형대수학에 대해서 공부를 해보고자 합니다. 우리는 앞에서 선형대수학은 일차식이나 일차 함수를 공부하는 학문이라고 정의하고 왔습니다. 그렇다면 일차식? 일차함수? 이런 용어부터 정의하고 넘어가야겠죠? 1. 일차식 vs 다항식 vs 일차함수의 개념 -. 일차식 : 가장 높은 차수가 1인 다항식 -. 다항식 : 단항식들의 덧셈과 뺄셈으로 이루어진 식 -. 일차함수 : 차수가 1차인 함수 2. 행렬과 백터 -. 원소 : 행렬의 숫자 한개 한개를 의미함 -. 행렬 : 수를 직사각형의 형태로 나열한 것 * 행 : 행렬의 가로줄 * 렬 : 행렬의 세로줄 * 행렬은 반드시 대문자로 작성하여 백터와 구분한다 -. 백터 : 일종의 행렬이나, 행이나 렬이 하나 밖에 없는 행렬을 뜻함 * 일..
안녕하세요 다제입니다. 오늘부터는 머신러닝에 대해서 배워보도록 하겠습니다. 빅데이터, 딥러닝, 인공지능 등 요즘 우리가 너무 자주 듣는 말 입니다. 사실 인공지능에 관한 학문적 연구는 오래 전부터 시행되었는데 왜 최근 이렇게 난리난리 일까요? 그래서 제가 준비했습니다! 오늘은 머신러닝이 핫한 이유와 머신러닝의 개념 그리고 배경 지식에 대해 나누어 보고자 합니다. 1. 머신러닝이 HOT한 이유 -. 옛날에는 활용할 수 있는 데이터가 pc, 스마트폰의 도입으로 기아급수적으로 증가하였다. -. 컴퓨터 성능이 매우 많이 좋아졌다. -. 머신러닝의 활용성한 가치 창출과 그로 인한 수익이 증명되었기 때문에!( 맞춤영상/광고 ) 사실 머신러닝을 하기 위해서는 많은 데이터가 필요합니다. 기계에게 학습시킬 데이터가 많을..
안녕하십니까 다제입니다. 오늘은 드디어 중심극한정리와 베이즈안 정리에 대해서만 알아보도록 하겠습니다. 범위가 제일 많으나, 할 말이 제일 많은 구간입니다. 구조도를 보면서 바로 시작해보겠습니다. 3-3. 중심극한정리(CLT, Central Limit Theorem) -. 쉽게 설명하여, 특정 데이터에서 샘플의 평균을 구한 후 -. 그 샘플들로 모집단의 전체 평균을 예측해보는 것이라고 생각하면 쉽습니다. -. 아래 예제를 바로 보시지요! 코드는 깃허브를 참고해 주세요! ( 링크 : github.com/daje0601/pandas_study ) 3-4. 베이즈안 정리 -. 베이즈안 정리를 하기 전, 혼동행렬이라는 개념을 알고 넘어가야 합니다. -. 혼동행렬이란 ? 모델의 성능을 평가할때 사용되는 지표 예측값..
안녕하십니까 다제입니다. 오늘 추정통계에 대해서 공부해 보고자 합니다. 흐름 잘 따라오고 있으시죠? 한번 복습하는 시간이 필요할거 같아요 저 같은 경우, 흐름이 머리속에 잡혀 있지 않으면 머리가 복잡함을 많이 느끼는 편이라서요 우리는 프로그래밍을 위해 통계를 배우고 있습니다. 기초통계1, 통계의 개념과 통계를 배우면 어떻게 분석을 하는지 기초통계2, 기술통계(평균, 중간값, 등)란 무엇인지 기초통계3, 추정통계(가설, ttest, pavlue, 중심극한정리 등) 가 무엇인지 위와 같으 흐름으로 진행되고 있다는 점 다시 한번 상기 부탁드립니다. 오늘은 드디어!!!!! 우리 배운 익숙한 코드들이 나오는 차례입니다 ㅎㅎ 수업 시간에 참 많은 내용들이 생략되었다는거 아시겠죠?ㅎㅎ 저도 코드를 작성할 생각에 벌써..
안녕하세요 다제입니다. 어제에 이어 프로그래밍을 위한 기초 통계를 공부하고 있습니다. 오늘은 기술통계에 대해서 다루어보겠습니다. 구조도를 보니 얼마 없어서 금방 끝나겠다 생각이 드시죠? 아쉽게도,, 내용도 많이 요약을 하였지만, 방대한 편입니다. 주말이여서 힘들고 피곤하시더라도 함께 공부해요! 2-1. Univariate analysis(일 변량 분석) -. 일변량 분석 이란 ?( 위키백과 ) * 중요한 사실은 하나의 변수만 포함하며 그 변수의 분포와 산포를 살펴봄으로써 의미있는 해석을 도출하는 방법입니다. 우리 수학자와 통계자분들이 열심히 분포를 공부하여 분포 모양에 따른 분류를 아래와 같이 하였습니다. 저 같은 경우 위 내용을 공부하고 코딩을 진행하니 충분히 이해가 되었고 비어있는 구멍이 매워지는 느..
안녕하세요 다제입니다. 어제에 이어 프로그래밍을 위한 기초 통계를 공부하고 있습니다. 오늘은 통계란 무엇인가? 에 대해서 다루어보겠습니다. 1-1. 통계의 정의 위와 같이 통계는 다양한 분야에서 분석의 도구로 사용되고 있습니다. 그럼 위와 같이 다양한 분야에서 어떤 식으로 분석에 사용되고 있는 걸까요? 1-2. 통계분석과정 위 기재된 내용처럼 통계는 DDA -> EDA -> CDA -> PDA되며, 각 단계별 목적과 분석도구를 알아보았습니다. 사실 위 내용은 블로그와 구글링을 통해서 확인한 내용입니다. 앞으로 우리가 현업으로 취직을 하게되면 위와 같은 업무를 하겠구나! 하면서 조사를 진행하였습니다. 능숙하게 pandas를 다루며 일할 생각을 하니 벌써 신이나네요!! 지금까지는 통계의 전반적인 분석 방법에..
안녕하세요~ 다제입니다. 오늘은 pandas를 하기 위한 기초통계에 대해서 알아보고자 합니다. 사실 프로그래밍을 하는데 갑자기 왠 통계? 라고 생각하실 수 있으나 실제로 DS(data science)를 하기 위해서는 무척 중요한 부분입니다. 그럼 통계를 어느 수준까지 공부를 해야할까? 이런 고민 많이 하십니다. 처음부터 끝까지 다 할거야! 이러시는 분 없으시죠? 이제부터 시리즈로 포스팅되는 내용이 기초라고 생각하시면 됩니다. 코드스테이츠 DS 1기 분들도 이 글을 보실거 같아 수업 내용에 다루었던 부분은 별도의 박스로 표기를 해두었습니다. 아래는 구조도를 제가 배운 내용과 구글링한 내용을 기반으로 그려보았습니다. 위와 같이 프로그래밍을 위한 기초통계는 크게 3가지로 나눌 수 있습니다. 1. 통계의 정리,..
안녕하세요. 다제입니다. 오늘 pandas 기초통계에 대해서 알아보도록 하겠습니다. 오늘 글의 흐름은 ①가설검정 흐름, ②용어별 개념에 대해서 알아보도록 하겠습니다. 1) 가설 설정 2) t-test값 구하기 3) t-test값, p-value 구하기 4) 95%의 신뢰도(confidence = 1 - p-value)에 드는지 확인 1) hypothesis : 테스트할 수 있는 아이디어 2) t-test -. 정의 : a와 b그룹 사이의 차이를 나타내는 지표 -. 의미 : t-test ↑ -> 그룹 간의 차이 ↑ -> 두 그룹 간의 유사성 ↓ -. 종류 * 독립된 두 그룹 간의 비교 * 동일한 그룹인데 시간대를 다르게 하는 비교 * 이미 알려진 평균(또는 내가 임의로 설정한 평균)으로 단일 그룹의 평균 ..
안녕하십니까 다제입니다. 오늘은 pandas(python)에서 결측치에 대해서 알아보도록 하겠습니다. 많이 검색해보고 공식문서도 읽어보았지만, 명확하게 설명해둔 자료가 없어 이렇게 정리하게 되었습니다. 위 표에서 설명드린 것처럼, python에서는 NaN, Na, Null이 모두 같은 의미로 사용됩니다. 다른 언어에서는 다르게 사용될 수도 있으니 꼭 확인하시고 사용하셔야 합니다. 그럼, 하나하나씩 살펴보겠습니다. 아래 코드는 제 깃허브(github)에 오시면 모두 보실 수 있고, 사용하실 때 fork하셔서 사용하시면 됩니다. ( 링크주소 : github.com/daje0601/pandas_study/blob/main/pandas_5.ipynb 위와 같이 설명드리며, 혹시 궁금하신 사항이나 틀린 부분이 있..