본문 바로가기
Data·AI/문제풀이

※분석 도전 ! p.123 풀기

by hyun-am 2019. 4. 1.

ggplot2 패키지에는 미국 동북중부 437개 지역의 인구통계 정보를 담은 midwest라는 데이터가 들어있습니다. midwest 데이터를 사용해 데이터 분석 문제를 해결하십시오.

 

 

 

 

1. 먼저 1번 박스에 보이는것 처럼 저는 library를 이용하여 ggplot2와 dplyr을 로드하였습니다. 왜냐하면 ggplot2와 dplyr을 써야 qplot이나 hist를 사용해 그래프를 볼 수 있고, 데이터를 조작할 수 있기 때문입니다.

 

2. 그리고 저는 2번 박스처럼 midwest를 ggplot2에서 가져와서 df_asia라는 복사본을 생성하였습니다. 왜냐하면 원본 데이터는 소중하기 때문입니다.

 

3. 그리고 3번 박스에서 보는 것 처럼 rename을 이용하여 df_asia에 있는 변수명을 수정하고 그것을 가지고 df_asia에 '전체 인구 대비 아시아 인구 백분율'을 만들었습니다. 

 

4. 그리고 이것을 hist를 이용하여 히스토그램을 만들었습니다. 히스토 그램은 아래 그림과 같습니다.

 

5. 그리고 아시아 인구 백불율 전체 평균을 구하고 새로운 변수를 만들었습니다.

대부분의 지역이 전체인구대비 아시아사람비율이 적다는 것을 알게 되었습니다. 

 

6. ifelse문을 이용하여 연속된 데이터를 범주화 시켰습니다. (large와 small로) 그리고 빈도 막대그래프는 아래와 같습니다.

 

7. table을 이용하여 빈도표를 만들었습니다. 

이런식으로 결과가 나왔습니다. 

 

따라서 아시아 인구 백분율 전체평균보다 큰 지역은 119곳이고 작은곳은 318곳인것을 파악할 수 있습니다. 

 

 

8. 마지막으로 다음수업에 배울 내용이지만 View와 fillter을 이용해서 전체 아시아 인구대비 비율이 3.0을 넘는 곳을 조사해봤습니다. 

이런 명령어로 실행하면 이러한 값이 나옵니다. 

 

보는 것과 같이 total_per_asian 값이 3.0이 넘는값만 출력하는 것을 확인할 수 있습니다.

댓글