1. 데이터 분석 준비하기
먼저 데이터는 깃허브(bit.ly/doit_rb)에서 Koweps_hpc10_2015_beta1.sav 파일로 존재하고 있습니다.
여기서 foreign 패키지는 SPSS, SAS, STATA 등 다양한 통계분석 소프트웨어의 파일을 불러올 수 있습니다.
그 후 read.spss( )를 이용해 복지패널데이터를 불러옵니다.
다음으로 데이터를 불러왔으니 데이터의 구조를 파악하는 head( ), tail( ), View( ), dim( ), str( ), summary( ), descr( )를 활용하겠습니다.
여기서 저는 summary( )와 descr( )을 사용했습니다.
이런식으로 최솟값, 최댓값, 1분위값, 중간값, 3분위값 등이 출력되는 것을 볼 수 있습니다.
그 후 간단한 사용을 위해 코드북을 파악한 후 변수명을 바꾸었습니다.
변수명으로 바꾸면 데이터를 조작할때 이해하기 쉽고 간편하다는 장점이 있습니다.
2. 성별에 따른 월급 차이
성별 데이터를 전처리 하기 전에 먼저 변수를 검토하였습니다.
출력한 결과 sex는 numeric 타입이고 1과 2로 구성되었습니다.
코드 북을 보면 1이면 남자, 2면 여자를 의미 한다는 것을 알 수 있습니다. table( )를 통해 이상치를 확인하고 없으면
is.na( )를 이용해 결측치를 확인한 후 ifelse( )를 이용하여 성별에 이름을 붙힙니다.
그 후 qplot( )이용해 나오는 값은 다음과 같습니다.
이것으로 성별의 전처리 작업이 완료됐습니다.
다음으로 월급(income)을 전처리 하였습니다.
먼저 전처리를 하기 전에 앞에 한 것과 마찬가지로 class( )로 타입을 확인하고 summary( )로 요약값을 확인하고
qplot( )과 xlim( )을 이용하여 월급의 분포를 확인했습니다.
그 다음 성별 월급 평균표를 만들었습니다.
그 후 그래프를 만든다음 출력한 값은 아래와 같습니다.
이것을 보고 남성이 여성보다 평균 월급이 많다는 것을 파악할 수 있습니다.
위의 내용은 다음 책의 내용을 참고하여 작성하였습니다.
'Data·AI > R 데이터분석' 카테고리의 다른 글
008.한국인의 삶을 파악하라! (직업별 월급차이, 성별 직업 빈도) (0) | 2019.05.25 |
---|---|
007.한국인의 삶을 파악하라! (나이-월급, 연령대-월급, 연령대 및 성별 월급 차이) (0) | 2019.05.25 |
005. 데이터 그래프 만들기 (0) | 2019.04.16 |
004. psych패키지, descr패키지 사용하기 (0) | 2019.04.16 |
003. 데이터 파악하기 (0) | 2019.04.15 |
댓글