본문 바로가기
Data·AI/R 데이터분석

R. 범주형 변수간 특성요약과 시각화

by hyun-am 2020. 9. 2.

범주형 변수간 분석방향성

 

분석대상 객체의 속성을 항목을 구별하는 방식으로 데이터를 수집 및 분석하는 범주형 변수 간에는 빈도와 비율을 활용한 교차 빈도•비율•백분율 분석을 활용해 다차원 적으로 여러 범주변수 간의 관련성(연관성)을 파악할 수 있습니다.

 

R로 실습해보기

 

범주형 변수컬럼 서브데이터셋 추출

전체 데이터셋 변수 컬럼 중에서 항목을 구별해주는 역할을 하는 이항•다항 명목척도, 서열•순서척도로 측정된 범주형 변수 컬럼 서브데이터셋을 별도로 추출합니다.코드 진행은 앞에서 했던 것들과 같습니다.

 

1. 데이터 로드하기

 

2. 범주형 변수 컬럼명 확인하기

3. 범주형 변수컬럼 데이터셋 추출하기

범주형 변수간 특성 분석하기

범주형 변수인 성별(gender) 변수와 연령대(age) 변수간 관련성을 파악하기 위하여 개별변수별 기술통계 특성을 살펴보고, 두 변수간의 교차 빈도 분석을 실시하겠습니다.

 

1. gender 데이터 모델링 하기

 

먼저 성별을 조회하면 1과 2로 구성되어 있는것을 확인할 수 있고 여기서 1은 남성 2는 여성입니다. 이것을 보기 쉽게 gender_f라는 카테고리 하나를 만들겠습니다.

2. 연령대별 데이터 모델링 하기

 

먼저 연령대 변수를 조회한 후 어떤식으로 구성되었는지 파악하고 그 후 팩터형으로 변경시키겠습니다.

 

3. 성별에 따른 연령대 확인하기

 

먼저 성별과 연령대를 교차분석 한 후 테이블을 만든다음 그것을 객체를 만들어 저장하겠습니다.

여기서 useNA = 'ifany'는 NA를 표시할건지 말건지 정하는 함수입니다.

 

4. 연령대에 따른 성별간 교차빈도 분석

 

마찬가지로 교차빈도 분석을 할건데 이것은 앞에는 성별에 따른 연령대 이고 이것은 연령대에 따른 성별입니다. 여기서도 마찬가지로 테이블을 만든 후 객체에다 저장 하겠습니다.

 

범주형 변수간 요약집계하기

범주형 변수인 성별(gender)변수와 연령대(age)변수간 교차빈도분석 결과를 활용해 교차비율과 교차백분율 분석을 실시해 두 변수간에 관련성이 있는지를 파악합니다.

 

1. 부분합 계산하기

 

먼저 부분합을 구하는 것을 테이블로 만들겠습니다. 부분합을 구할때는 addmargins()라는 함수를 쓰는데 여기서 아래 코드를 확인하시면 1과 2를 붙이는 것을 확인할 수 있습니다. 여기서 1은 열의합 2는 행의 합을 뜻합니다. 

2. 각 연령대 및 성별별 분포 비율 확인하기

 

여기서는 prop.table()함수를 이용해서 분포 비율을 확인하겠습니다. 위에와는 다르게 아래 코드를 확인하면 1은 행기준 2는 열 기준인 것을 확인할 수 있습니다.

 

범주형 변수간 시각화 하기

다음은 범주형 데이터를 한눈에 파악하기 위해 데이터를 시각화 하겠습니다. 

 


이 자료는 https://www.youtube.com/channel/UChPuesN49tcqQqYRQHrLCuw를 참조하여 작성하였습니다.

 

 

K-ICT 빅데이터센터

판교 K-ICT 빅데이터센터 공식 유튜브 채널입니다.

www.youtube.com

 

댓글