본문 바로가기

R27

R. 범주형 변수간 특성요약과 시각화 범주형 변수간 분석방향성 분석대상 객체의 속성을 항목을 구별하는 방식으로 데이터를 수집 및 분석하는 범주형 변수 간에는 빈도와 비율을 활용한 교차 빈도•비율•백분율 분석을 활용해 다차원 적으로 여러 범주변수 간의 관련성(연관성)을 파악할 수 있습니다. R로 실습해보기 범주형 변수컬럼 서브데이터셋 추출 전체 데이터셋 변수 컬럼 중에서 항목을 구별해주는 역할을 하는 이항•다항 명목척도, 서열•순서척도로 측정된 범주형 변수 컬럼 서브데이터셋을 별도로 추출합니다.코드 진행은 앞에서 했던 것들과 같습니다. 1. 데이터 로드하기 2. 범주형 변수 컬럼명 확인하기 3. 범주형 변수컬럼 데이터셋 추출하기 범주형 변수간 특성 분석하기 범주형 변수인 성별(gender) 변수와 연령대(age) 변수간 관련성을 파악하기 위하.. 2020. 9. 2.
R. 연속형 변수 특성 요약과 시각화(비율형) 비율형 척도 변수컬럼 특성 파악하기 비율형 척도 (ratio) 중에서 지출경비(expense)변수를 선정하여 지출경비 수치들이 가진 중심성, 변동성, 정규성 분포 특성을 파악합니다. 먼저 expense 컬럼을 뽑아내서 어떤 데이터인지 파악하겠습니다. library(Hmisc) Hmisc::describe(cnt$expense) 이제 산술평균, 중앙값, 최빈값을 파악하겠습니다. 1. 산술평균 mean(cnt$expense) mean(cnt$expense, na.rm = TRUE) mean(cnt$expense, na.rm = TRUE, trim = 0.3) 여기서 trim = 0.3을 적용한 mean을 보면 다른 값들에 비해서 현저히 낮은 것을 확인할 수가 있습니다. 이것은 평균에 비해서 극값이 있다는 사.. 2020. 8. 24.
R. 연속형 변수 특성 요약과 시각화(등간형) 연속형 변수 특성 요약과 시각화 연속형 변수 컬럼 서브데이터셋 추출하기 전체 데이터셋 변수 컬럼 중에서 분석 대상 객체 속성의 양적인 크기를 파악한 등간•간격척도와 비율 척도로 측정된 연속형 변수 컬럼 서브데이터셋을 별도로 추출합니다. 먼저 연속형 변수를 꺼내오기 위해 범주형 변수컬럼명을 파악한 후 데이터를 도출하겠습니다. 1. 전체 변수 컬럼명 파악 all_names 2020. 8. 24.
R. 데이터 시각화탐색(산점도 매트릭스, 상관관계) 전체변수간 산점도 매트릭스 데이터셋을 구성하고 있는 모든 변수컬럼 간의 상호관련성을 산점도(scatter plot) 매트릭스(matrix)를 통해서 살펴볼 수 있습니다. 산점도 매트릭스를 표현하기 위해 사용된 함수는 plot( )입니다. 먼저 산점도 매트릭스를 표현하기 전에 데이터를 불러오겠습니다. # 여행자 관련 csv 파일 my 2020. 8. 24.
R. 데이터 탐색하기 데이터셋 로딩 앞에서도 본것처럼 데이터셋 로딩하는 방법은 아래와 같습니다. 1. 기본 read함수로 로드하기 2. readr::read_delim()함수를 이용하여 로드하기 3. data.table::fread()함수를 이용하여 로드하기가 있습니다. 자세한 내용을 보고싶으면 여기를 참고하시면 됩니다. https://hyun-am-coding.tistory.com/entry/%EB%8D%B0%EC%9D%B4%ED%84%B0%EC%85%8B-%EB%A1%9C%EB%94%A9%ED%95%98%EA%B8%B0-%ED%94%8C%EB%A0%88%EC%9D%B8-%ED%85%8D%EC%8A%A4%ED%8A%B8-%ED%8C%8C%EC%9D%BC 데이터셋 로딩하기 - 플레인 텍스트 파일 데이터셋 로딩하기 먼저 아래와.. 2020. 8. 21.
R. 데이터셋 로딩하기 - Excel, JSON, 외부링크 데이터 데이터셋 로딩하기 Excel데이터 로드하기 먼저 Excel 데이터를 로드하기 위해 다음과 같은 패키지를 설치하고 메모리에 로드하겠습니다. install.packages('readxl') library(readxl) 엑셀을 보면 하나의 시트가 이루어 진것이 아니라 다양한 시트들로 구성되어 있습니다. 여기 library에서 excel_sheets('파일이름')을 이용하면 엑셀 내부에 어떤 시트가 있는지 확인할 수 있습니다. 다음과 같은 파일의 시트 목록을 조회하겠습니다. excel_sheets('customer.xlsx') 그러면 다음과 같은 이름을 가진 두개의 시트가 있다는 것을 확인할 수 있습니다. 먼저 mycustomer시트의 데이터를 로딩하겠습니다. 1. mycustomer 시트 로드하기 cs_xl 2020. 8. 21.