본문 바로가기
Data·AI/R 데이터분석

005. 데이터 그래프 만들기

by hyun-am 2019. 4. 16.

Index

  • 산점도
  • 막대그래프
  • 선그래프
  • 상자그림

1. 산점도

먼저 산점도는 연속 값으로 된 두 변수의 관계를 표현할 때 사용됩니다.

 

※ ggplot2 문법은 레이어 구조입니다. 3단계를 확인 해 봅시다.

  1. 배경 설청(축)
  2. 그래프 추가(점, 막대, 선)
  3. 설정 추가(축 범위, 색, 표식)

1-1. 배경 설정하기

먼저 산점도를 사용하기 위해 mpg 데이터를 불러 온 후 aes를 통해 x축과 y축에 사용할 변수를 지정하겠습니다.

다음과 같은 방식으로 배경을 설정할 수 있습니다.

실행을 하면 다음과 같이 배경이 생성됩니다.

배경만 있고 안에 그래프가 없는것을 확인할 수 있습니다. 따라서 geom_point( )를 추가해 산점도를 그리겠습니다.

1-2. 그래프 추가하기

geom_point( )함수를 사용하는 방법은 아래와 같습니다.

실행한 모습은 아래와 같습니다.

이처럼 시각화를 하면 데이터를 분석하기 쉬운데요.

이 그래프를 보고 확인할 수 있는 사실은 배기량이 낮으면 고속도로 연비가 높다는 사실을 알 수 있습니다.

 

1-3. 축 범위를 조정하는 설정 추가하기

 

xlim( )과 ylim( )을 이용하여 x축과 y축의 범위를 구할 수 있습니다.

지정하는 방법은 아래와 같습니다.

 

이런식으로 x축과 y축의 범위를 지정할 수 있습니다. 보여지는 그래프는 아래와 같습니다.

2. 막대그래프

막대그래프는 집단 간 차이를 표현할 때 자주 사용합니다. 변수의 (범주형-연속형) 이런식으로 해서 그래프 표기를 많이 합니다.

 

2-1. 집단별 평균표 만들기

 

먼저 평균 막대 그래프를 만들기 전에 집단별 평균표를 만들어야 합니다. dplyr 패키지를 이용해서 '구동 방식별 편균 고속도로 연비'를 만들겠습니다.

그러면 다음과 같은 값이 출력이 됩니다.

 

2-2. 그래프 생성하기

 

그래프를 생성할 때는 aes( ) 함수를 이용해 x축에는 범주형 값을 지정하고, y축에는 연속형 값을 지정합니다.

그리고 맨 뒤에 막대그래프를 만드는 함수인 geom_col( )를 추가합니다.

만든 값은 아래처럼 출력됩니다.

2-3. 크기순으로 정렬하기 

 

만약 크기순으로 정렬하고 싶으면 reorder( )함수를 사용해 x축 변수와 정렬기준으로 삼을 변수를 지정하면 됩니다. 만약 내림차순을 하고싶으면 - 기호를 붙이면 됩니다.

명령어는 아래와 같이 사용합니다.

그러면 그래프가 내림차순으로 출력하는 것을 볼 수 있습니다.

 

2-4. 빈도 막대 그래프 만들기

 

만약 빈도 그래프를 만들고 싶으면 y축을 지정하지 않고 x축만 지정한 후 geom_bar( )함수를 사용하면 됩니다.

이런식으로 자동차 브랜드의 빈도수를 확인하기 위한 명령어를 친후 그래프를 확인하면 다음과 같습니다.

4. 선그래프

데이터를 선으로 표현한 그래프를 '선그래프'라고 합니다. 먼저 선 그래프는 시간에 따라 달라지는 데이터를 표현할 때 자주 사용합니다.

이러한 그래프를 사용하기 위해서는 일정 시간을 간격을 두고 나열된 데이터 '시계열 데이터'를 사용하고 이것을 선으로 표현한 것을 '시계열 그래프'라고 합니다.

 

4-1. 시계열 그래프 만들기

 

ggplot2패키지에 들어있는 economics 데이터를 이용해 시계열 그래프를 한번 만들어 보겠습니다.

x축에는 시간을 의미하는 date, y축에는 실업자 수를 의미하는 unemploy를 지정하고, 선 그래프를 이용하기위해

geom_line( )함수를 이용하였습니다.

출력되는 값은 다음과 같습니다.

5. 박스그래프

 

앞에서 한번 배운적이 있는 박스 그래프를 사용하는 방법입니다. 박스 그림은 데이터의 분포를 직사각형 상자 모양으로 표현한 그래프입니다. 상자 그림을 보면 분포를 확인하기 쉬워서 데이터의 특징을 파악하기 쉽습니다.

 

5-1. 박스그래프 표

상자 그림 설명
상자 아래 세로선 아랫수염 하위 0~25% 내에 해당하는 값
상자 밑면 1사분위수(Q1) 하위 25% 위치의 값
상자 내 굵은 선  2사분위수(Q2) 하위 50% 위치 값(중앙값)
상자 윗면 3사분위수(Q3) 하위 75% 위치 값
상자 위 세로선 윗수염 하위 75%~100% 내에 해당하는 값
상자 밖 점 표식 극단치 Q1, Q3 밖 1.5 IQR을 벗어난 값

 

위의 내용은 다음 책의 내용을 참고하여 작성하였습니다.

 

https://book.naver.com/bookdb/book_detail.nhn?bid=12256508

 

Do it! 쉽게 배우는 R 데이터 분석

통계, 프로그래밍을 1도 몰라도 데이터를 혼자서 다룰 수 있다! 데이터 분석 프로젝트 전 과정 수록!통계, 프로그래밍을 1도 몰라도 데이터를 혼자서 다룰 수 있다! 데이터 분석 프로젝트 전 과정 수록!데이터 분석을 처음 시작한 초보자도 어깨춤을 추며 데이터를 혼자 다룰 수 있게 한다는 강의가 책으로 출간되었다. 통계, 프로그래밍, 데이터 분석을 전혀 몰라도 「Do it! 쉽게 배우는 R 데이터 분석」을 통해 R로 최근 주목받고 있는 데이터 분석 기법들을

book.naver.com

 

댓글