코딩일기

[Datascience] 프로그래밍을 위한 기초통계1(feat. pandas, ttest) 본문

Code/머신러닝(ML)

[Datascience] 프로그래밍을 위한 기초통계1(feat. pandas, ttest)

daje 2021. 1. 10. 00:18
728x90
반응형

안녕하세요 다제입니다. 

어제에 이어 프로그래밍을 위한 기초 통계를 공부하고 있습니다. 

 

오늘은 통계란 무엇인가? 에 대해서 다루어보겠습니다. 

 

 

프로그래밍을 위한 기초 통계

 

1-1. 통계의 정의 

위와 같이 통계는 다양한 분야에서 분석의 도구로 사용되고 있습니다.

그럼 위와 같이 다양한 분야에서 어떤 식으로 분석에 사용되고 있는 걸까요?

 

 

1-2. 통계분석과정

위 기재된 내용처럼 통계는 

DDA -> EDA -> CDA -> PDA되며, 각 단계별 목적과 분석도구를 알아보았습니다. 

사실 위 내용은 블로그와 구글링을 통해서 확인한 내용입니다. 앞으로 우리가 현업으로 취직을 하게되면

위와 같은 업무를 하겠구나! 하면서 조사를 진행하였습니다. 

능숙하게 pandas를 다루며 일할 생각을 하니 벌써 신이나네요!!

 

지금까지는 통계의 전반적인 분석 방법에 대해서 알아보았습니다. 

그런데 통계에서 분석처럼 중요한게 또 한가지가 있다네요!

그건~~~~~~ 바로 데이터의 타입(data type)입니다. 

 

데이터 타입이 왜 중요할까? 고민하는 분들을 위해 간략하게 설명드리겠습니다. 

저희가 앞으로 다룰 데이터는 동전 앞뒤가 나올 확률부터 코로나19 발생현황까지 정말 다양한 데이터가 있습니다.

각 데이터에 맞게 다양한 분석 기법과 툴도 있죠. 적절한 툴을 사용하지 않는다면 옳바른 결과를 도출할 수 없고

 

저희는

시간적, 경제적 낭비를 하게 되고,,

더 나아가 인사평가,,흑흑

더 나아가 회사와 고객에게 막대한 손실을 줄 수 있습니다. 

 

데이터 타입이 얼마나 중요한지 아시겠죠? 

이제부터는 어떤 데이터 타입이 있는지, 어떤 분석방법이 있는지 간단히 살펴보겠습니다. 

 

1-3. Data type & type에 따른 분석 

키, 숫자가 연속형 데이터라는 말이 잘 안와닿으실 수 있어서 간단히 설명드릴게요

1, 2 이렇게 딱딱 떨어지는데 이게 왜 연속형이야!? 

 

저도 처음에는 그렇게 생각하였습니다. 위키백과가 틀렸다..!.. 아 그래도 한번만 더 생각해보자

하고 폭풍 구글링을 한 결과, 수학적인 관점으로 이를 바라보아야 한다는 걸 발견했습니다. 

 

1, 2 사이에는 1.1, 1.2002, 1.0000000000009 등 아주 수많은 무하한 숫자들이 있습니다. 

그러기에 이들은 연속형(수량형)으로 범주가 분류된다고 하니 참고하세요~

왜 이러는거야? 라고 한다면 수학과 친구들에게 질문...을.....

 

 

1-4. 통계 용어정리

 

통계를 공부하다보면 생각보다 많은 용어들이 나옵니다. 

햇갈림을 방지하기 위해 영어와 한글로 기재하여 전달드리니 공부할 때 참고 부탁드립니다. 

 

피드백은 언제든지 환영입니다.

오늘도 고생하셨습니다. 

 

좋아요! 하트는 부탁드려요~

728x90
반응형
Comments