코딩일기

pandas 기초통계(hypothesis, t-test, p-value, confidence) 본문

Code/머신러닝(ML)

pandas 기초통계(hypothesis, t-test, p-value, confidence)

daje 2021. 1. 5. 13:14
728x90
반응형

 

 

안녕하세요. 다제입니다. 

오늘 pandas 기초통계에 대해서 알아보도록 하겠습니다. 

 

오늘 글의 흐름은

가설검정 흐름, ②용어별 개념에 대해서 알아보도록 하겠습니다. 


<가설검정 흐름도>

1) 가설 설정 

2) t-test값 구하기

3) t-test값, p-value 구하기 

4) 95%의 신뢰도(confidence = 1 - p-value)에 드는지 확인

 


 

<용어의 개념>

1) hypothesis : 테스트할 수 있는 아이디어 

 

2) t-test

  -. 정의 : a와 b그룹 사이의 차이를 나타내는 지표 

  -. 의미 : t-test ↑ -> 그룹 간의 차이 ↑  -> 두 그룹 간의 유사성

  -. 종류 

    * 독립된 두 그룹 간의 비교 

    * 동일한 그룹인데 시간대를 다르게 하는 비교 

    * 이미 알려진 평균(또는 내가 임의로 설정한 평균)으로 단일 그룹의 평균 비교 

 

3) p-value

  -. 정의

    * (귀무)가설이 참일 (우연한)가능성에 대한 확률

    *  일반적인 p-value 기준 : 0.05 ( 5% ) 

        귀무가설 : 모든 노력이 허무하게 돌아가게하는 가설 

  -. 의미 : p-value  -> (귀무)가설 틀렸을 확률 ↑ 

  -. ex)

    * A=B 라는 가설을 세웠다고 가정하자 

    * p-value가 0.05를 넘는다면 귀무가설이 참일 가능성에 대한 확률이 높다고 추측함 

    * 그래서 A = B일 수도 있다고 함 ( 확률이기 때문에 이렇게 표현함 )

    

    * 만약 p-value가 0.00005이라면 A B일 확률이 높다고 추측함 

    * 그래서 A B일 수도 있다고 함 ( 확률이기 때문에 이렇게 표현함 )

 

4) confidence(신뢰도)

  -. 정의 : p-value에 속하지 않을 확률

    *  일반적인  신로도 기준 : 0.95 or 0.99 ( 95%  or 99% ) 

  -. 의미 : 귀무가설이 맞을 확률

 


그렇다면 이걸 코드로는 어떻게 작성을 할까요?

우리가 주목해야할 값은 p-value입니다. 

 

실제 코드에서 p-value를 구하는 건 무척 간단하지만, 값을 해석하는게 처음에는 어려울 수 있습니다. 

 

나무들에 대한 각 마을별 데이터가 있습니다. 

반대의 경우라면, 즉, p-value가 0.0002라면 저희가 가설이 틀렸을 수도 있을 확률이 매우 높다는 걸 의미합니다. 

 

이처럼 말장난이 매우 심한 것처럼 느껴지실텐데요.

 

꼭 많은 문제를 푸셔서 익숙해지시길 바랄게요~ 뒤에서 엄청 많이 쓰이거든요! 

728x90
반응형