코딩일기

[Datascience] 프로그래밍을 위한 기초통계3(feat. anova, 베이즈정리리 사전공부) 본문

Code/머신러닝(ML)

[Datascience] 프로그래밍을 위한 기초통계3(feat. anova, 베이즈정리리 사전공부)

daje 2021. 1. 10. 10:29
728x90
반응형

안녕하십니까 다제입니다. 

 

오늘 추정통계에 대해서 공부해 보고자 합니다. 

흐름 잘 따라오고 있으시죠? 한번 복습하는 시간이 필요할거 같아요

 

저 같은 경우, 흐름이 머리속에 잡혀 있지 않으면 머리가 복잡함을 많이 느끼는 편이라서요

 

우리는 프로그래밍을 위해 통계를 배우고 있습니다. 

 

기초통계1, 통계의 개념과 통계를 배우면 어떻게 분석을 하는지 

 

기초통계2, 기술통계(평균, 중간값, 등)란 무엇인지 

 

기초통계3, 추정통계(가설, ttest, pavlue, 중심극한정리 등) 가 무엇인지

 

위와 같으 흐름으로 진행되고 있다는 점 다시 한번 상기 부탁드립니다. 

 

오늘은 드디어!!!!! 우리 배운 익숙한 코드들이 나오는 차례입니다 ㅎㅎ 

수업 시간에 참 많은 내용들이 생략되었다는거 아시겠죠?ㅎㅎ

 

저도 코드를 작성할 생각에 벌써 설레이네요..ㅎㅎ

바로 시작하시죵~

 

 

3-1. 추정이란?

일단 모집단으로부터 표본을 추출한다고 "추정의 정의"에 기재해 두었습니다. 

저희가 다룰 데이터는 앞으로 엄청 크다고 생각하시면 됩니다. 그런 모든 데이터를 다 검사해서

모집단의 특성을 파악하고 분석하면 참 좋겠지만, 현실에서는 비용적인 측면과 시간적인 측면에서 불가능합니다. 

 

raw데이터를 얻는 것은 정말 어마어마한 비용이 듭니다. 

다른 기업으로부터 데이터를 받아올때 데이터 비용도 들지만, 데이터를 받아오는 통로를 설계하고

그 방대한 데이터를 저장(서버비용)하고 받아와서 전처리를 진행하는(인건비) 등 다양한 비용이 발생됩니다. 

그렇기에 우리는 분석을 진행할 때 비용적인 측면을 반드시! 반드시! 꼼꼼히 검토해야합니다. 

 

회사와 고객은 초기비용은 100만원이 들거 같습니다. 라는 견적을 받고 계약을 체결하였는데 

실제로는 1000만원이 들었습니다. 라고 하면 사기꾼, 업계에서 안좋은 소문이 날 확률이 매우 높죠?

안그래도 한정된 인원으로 운영되는 시작인데,, 실력이 없다라는 소문은 치명적일 수 있습니다. 

물론 우리가 막 회사에 입사해서 비용을 계산하는 일은 없겠지만, 그래도 개념을 가지고 일하는 것과

아닌 것은 큰 차이가 있습니다! 

 

 

 

그렇다면 모집단에서 샘플을 뽑아와야 하는데 어떻게 뽑아올 수 있을까요?

simple random sampling example
systemati sampling example
stratifed random sampling
cluster random sampling

 

 

귀무가설과 대립가설이 정확히 이해가 잘 안돼실거 같아 부연설명을 드리겠습니다. 

 

예)

  • Ho (귀무가설) : 대한민국 남성 20대의 평균키는 190cm일 것이다 
  • Ha (대립가설) : 대한민국 남성 20대의 평균키는 190cm가 아닐 것이다 
  • 만약 이때 p-value를 계산하였는데, 0.05보다 크다면 귀무가설이 참이 될 확률이 높고
  • 0.05보다 작다면 귀무가설이 참이 아닐 확률이 높아지는 것 입니다. 

 

참이 될 확률이 높다!

참이 아닐 확률이 높다! 

여기서 제가 말을 참 명확하게 쓰지 않았죠?

 

애매하게 기재할 수 밖에 없습니다. 곰곰히 생각해보시면 우리는 확률을 다루고 있습니다. 

100% 귀무가설은 참이야! 라고 말할 수 있는 사람은 아무도 없습니다. 

 

그러기에 그럴 확률이 높다, 거짓일 확률이 높다 라는 애매한 말을 가져다 사용하는 것입니다.

실제로 이러한 분석을 통해 기업에서 의사결정을 할때도 확률이 높은 쪽으로 과감히 투자하고 

믿고 추진해 나아가는 것이죠~ 그러기에 실패할 수도 있고 성공할 수도 있는 것입니다. 

 

물론 삼성전자나, 유명한 기업들은 미래의 사실과 더 일치하도록 분석을 잘하는 것이구요!

그러니, 들어가서 어떻게 의사결정을 하는지 배울 필요가 있습니다. 

우리가 스타트업을 가나, 대기업을 가나, 다 의미가 있는 것은 그 분들의 생각의 길을 배울 수 있다는 점입니다. 

( 이만 각설하고 공부 계속 해보겠습니다. ) 

 

 

3-2. 가설검정

지금까지 가설검정과 대표적인 방법들에 대해서 공부해보았습니다.

아래는 코드를 실습하는 단계이며, 깃허브 링크도 공유드리니 참고 부탁드립니다. ^^ 

 

 

 

개념은 간단하나, 막상 코드로 실습을 진행하면 많이 햇갈리는 부분입니다.

이제부터 나올 모든 코드는 제 깃허브에 있으니 아래 링크를 참조해주세요

fork하셔서 colab과 연동하여 사용하시면 좋겠죠?

github.com/daje0601/pandas_study/blob/main/pandas_6.ipynb

 

3-2-1) t-test

 

3-2-2) ANOVA

 

3-2-3) chi-square test 

 -. one sample test

-. two sample test 

이후에는 중심극한정리와 베이지안 정리에 대해서 알아보도록 하겠습니다. 

감사합니다. 

728x90
반응형
Comments