본문 바로가기

R27

009.한국인의 삶을 파악하라! (종교 유무에 따른 이혼율, 지역별 연령대 비율) 1. 종교 유무에 따른 이혼율 종교 변수 검토 및 전처리하기 먼저 종교 변수를 전처리 하면 (종교를 가졌다면 1, 없으면 2, 무응답 9) 다음과 같은 값을 얻습니다. 결혼여부 변수 검토 및 전처리하기 먼저 marriage 변수에서 파생 변수를 만들겠습니다. (0 : 비해당, 1: 유배우, 2: 사별, 3: 이혼, 4: 별거, 5: 미혼, 6: 기타) 다음은 종교 유무에 따른 이혼율을 분석하기 먼저 종교 유무에 따른 이혼율 표를 만들겠습니다. 다음은 연령대 및 종교 유무에 따른 이혼율을 분석하겠습니다. 먼저 연령대별 이혼율 표를 만들겠습니다. 이것을 그래프로 만들면 아래와 같습니다. 앞에서 만든 표에서 초년생들은 이혼과 결혼은 매우 적어서 제외 시켰습니다. 다음은 연령대 및 종교 유무에 따른 이혼율 표를.. 2019. 5. 25.
008.한국인의 삶을 파악하라! (직업별 월급차이, 성별 직업 빈도) 1. 직업별 월급차이(어떤 직업이 월급을 가장 많이 받을까?) 먼저 깃허브(bit.ly/doit_rc)에서 Koweps_Codebook.xlsx를 다운로드해 readxl( )로 불러오겠습니다. 그 후 left_join을 이용해 job 변수를 welfare에 결합합니다. code_job을 기준으로 join했습니다. 아래와 같은 명령어를 실행해 잘 결합됐는지 확인하겠습니다. 이제 직업별 월급 차이를 분석하겠습니다. 먼저 직업별 월급 평균표를 만들겠습니다. 직업이 없거나 월급이 없으면 조사 대상이 아니므로 is.na( )를 통해 제외시키겠습니다. 어떤 직업이 월급을 많이 받는지 알아보기 위해 월급을 내림차순으로 정렬하고 상위 10개를 출력합니다. 그 후 그래프를 만드는데 coord_flip( )를 이용해 x축.. 2019. 5. 25.
007.한국인의 삶을 파악하라! (나이-월급, 연령대-월급, 연령대 및 성별 월급 차이) 1. 나이 - 월급 (몇 살 때 월급을 가장 많이 받을까?) 먼저 나이라는 파생변수를 새로 만들겠습니다. summary( )와 qplot( )를 이용하여 age의 값을 분석하겠습니다. 그 후 나이와 월급의 관계를 분석하기 위해 나이에 따른 월급 평균표를 만들겠습니다. 실행 시키면 아래와 같은 값이 나옵니다. 이렇게 만든 평균표를 이제 그래프로 만들겠습니다. 그래프를 보면 20대 초반에는 100만원 초반대 월급을 받고 40~50대 무렵 300만원대 월급을 받고 60대 이후에는 20대보다 월급을 적게 받는 다는 것을 알 수 있습니다. 2. 연령대 - 월급 (어떤 연령대의 월급이 가장 많을까?) 먼저 연령대를 만들기위해 초년(30세 미만), 중년(30~59세), 노년(60세 이상)을 만들겠습니다. 그 후 연령.. 2019. 5. 25.
006.한국인의 삶을 파악하라! (분석 준비하기, 성별에 따른 월급 차이) 1. 데이터 분석 준비하기 먼저 데이터는 깃허브(bit.ly/doit_rb)에서 Koweps_hpc10_2015_beta1.sav 파일로 존재하고 있습니다. 여기서 foreign 패키지는 SPSS, SAS, STATA 등 다양한 통계분석 소프트웨어의 파일을 불러올 수 있습니다. 그 후 read.spss( )를 이용해 복지패널데이터를 불러옵니다. 다음으로 데이터를 불러왔으니 데이터의 구조를 파악하는 head( ), tail( ), View( ), dim( ), str( ), summary( ), descr( )를 활용하겠습니다. 여기서 저는 summary( )와 descr( )을 사용했습니다. 이런식으로 최솟값, 최댓값, 1분위값, 중간값, 3분위값 등이 출력되는 것을 볼 수 있습니다. 그 후 간단한 사용.. 2019. 5. 25.
005. 데이터 그래프 만들기 Index 산점도 막대그래프 선그래프 상자그림 1. 산점도 먼저 산점도는 연속 값으로 된 두 변수의 관계를 표현할 때 사용됩니다. ※ ggplot2 문법은 레이어 구조입니다. 3단계를 확인 해 봅시다. 배경 설청(축) 그래프 추가(점, 막대, 선) 설정 추가(축 범위, 색, 표식) 1-1. 배경 설정하기 먼저 산점도를 사용하기 위해 mpg 데이터를 불러 온 후 aes를 통해 x축과 y축에 사용할 변수를 지정하겠습니다. 다음과 같은 방식으로 배경을 설정할 수 있습니다. 실행을 하면 다음과 같이 배경이 생성됩니다. 배경만 있고 안에 그래프가 없는것을 확인할 수 있습니다. 따라서 geom_point( )를 추가해 산점도를 그리겠습니다. 1-2. 그래프 추가하기 geom_point( )함수를 사용하는 방법은 아.. 2019. 4. 16.
004. psych패키지, descr패키지 사용하기 앞에 나왔던 summary( ) 함수로는 최솟값, 1사분위수, 중앙값, 평균, 3사분위수, 최댓값까지 확인할 수 있지만 "psych" 패키지를 설치하고 로드한 후 describe( )함수를 이용하면 summary( )함수에서 이용한 것과 변수 개수, 관측치 수, 표준편차, 범위, 첨도, 왜도 까지 알 수 있습니다. 예를들면 summary 한 값은 아래 그림과 같습니다. 다음은 describe한 값입니다. 이것을 통해 summary로만 부족한 내용을 describe를 통해 보충해서 확인 할 수 있습니다. 다음은 "descr"패키지를 이용해 freq( ) 함수를 사용해서 빈도수를 확인시켜주는 함수를 만들겠습니다. 먼저 mpg데이터에 있는 자동차 브랜드의 빈도수를 파악하기 위해 다음과 같은 명령어를 사용했습니.. 2019. 4. 16.