먼저 통계적 가설 검정을 하기전에 통계 분석 절차를 설명하겠습니다.
통계 분석 절차
1. 분석 방법 선정
2. 분석하고자 하는 목적에 따른 귀무가설(영가설)과 대립가설 설정
3. 분석도구(SPSS,R등) 검정 통계량 실행 및 확인
4. 유의수준(a) 결정 : 0.1, 0.05, 0.01
5. 유의확률(P) 확인
6. 유의확률과 유의수준 비교 (<a)
7. 귀무가설 과 대립가설 선택
8. 분석 결론
※ 여기서 유의 확률은 객관적으로 95%를 기준으로 합니다.
※ 또한 이런 유의확률(P)를 통해 통계적 가설 검정을 할 수 있습니다.
기술 통계와 추론 통계
먼저 통계 분석은 기술통계와 추론 통계로 나눌 수 있습니다.
데이터를 요약해 설명하는 통계 기법을 기술 통계 라고 합니다. 예를 들어, 사람들이 받는 월급을 집계해 전체 월급 평균을 구한다면 이는 기술 통계 분석 입니다.
단순히 숫자를 요약하는 것을 넘어 어떤 값이 발생할 확률을 계산하는 통계 기법을 추론 통계 라고 합니다.
예를 들면, 수집된 데이터에서 성별에 따라 월급에 차이가 있는 것으로 나타났을 때, 이런 차이가 우연히 발생할 확률을 계산합니다.
만약 이런 차이가 우연히 나타날 확률이 작다면 성별에 따른 월급 차이가 통계적으로 유의하다(statistically signifiant)라고 합니다. 반대로 이런 차이가 우연히 나타날 확률이 크다면 성별에 따른 월급 차이가 통계적으로 유의하지 않다 라고 결론을 내립니다.
※ 여기서 통계적으로 유의하다 라는 뜻은 통계적 기법을 적용해서 '아, 내가 생각하는 것이 맞구나!' 라는 뜻을 가지고 있습니다.
일반적으로 통계 분석 수행했다는 것은 추론 통계를 이용해 가설 검정을 했다는 의미입니다. 기술 통계 분석에서 집단 간 차이가 있는 것으로 나타났더라도 이는 우연에 의한 차이일 수 있습니다. 데이터를 이용해 신뢰할 수 있는 결론을 내리려면 유의확률을 계산하는 통계적 가설 검정 절차를 거쳐야 합니다.
통계적 가설 검정
유의확률을 이용해 가설을 검정하는 방법을 통계적 가설 검정 이라고 합니다.
유의확률이란 객관적으로 95%를 기준으로 합니다, 그리고 실제로는 집단 간 차이가 없는데 우연히 차이가 있는 데이터가 추출될 확률을 의미합니다.
통계 분석을 실시한 결과 유의확률이 크게 나타났다면 '집단 간 차이가 통계적으로 유의하지 않다'고 해석합니다.
만약 만대의 결과가 나오면 '집단 간 차이가 통계적으로 유의하다'라고 할 수 있습니다.
※ 집단 간 차이가 통계적으로 유의하지 않다
- 실제로 차이가 없더라도 우연에 의해 이 정도의 차이가 관찰될 가능성이 크다.
※ 집단 간 차이가 통계적으로 유의하다
- 실제로 차이가 없더라도 우연에 의해 이 정도의 차이가 관찰될 가능성이 작다, 우연이라고 보기 어렵다 라는 뜻을 가지고 있습니다.
위의 내용은 다음 책의 내용을 참고하여 작성하였습니다.
https://book.naver.com/bookdb/book_detail.nhn?bid=12256508
'Data·AI > 관련자료' 카테고리의 다른 글
데이터 분석가가 되기위한 역량, 기술 (0) | 2020.02.06 |
---|---|
Modern BI 제품 5가지 (0) | 2020.02.04 |
SKT·대구시·대구경찰, 유동인구 빅데이터 활용 안전사회 조성한다 (0) | 2019.05.25 |
KT넥스알, 차세대 클라우드 빅데이터 플랫폼 출시한다 (0) | 2019.05.21 |
머니브레인, 고품질 딥러닝 음성합성(TTS) 기술 공개 (0) | 2019.05.09 |
댓글