본문 바로가기

빅데이터12

R. 범주형 변수간 특성요약과 시각화 범주형 변수간 분석방향성 분석대상 객체의 속성을 항목을 구별하는 방식으로 데이터를 수집 및 분석하는 범주형 변수 간에는 빈도와 비율을 활용한 교차 빈도•비율•백분율 분석을 활용해 다차원 적으로 여러 범주변수 간의 관련성(연관성)을 파악할 수 있습니다. R로 실습해보기 범주형 변수컬럼 서브데이터셋 추출 전체 데이터셋 변수 컬럼 중에서 항목을 구별해주는 역할을 하는 이항•다항 명목척도, 서열•순서척도로 측정된 범주형 변수 컬럼 서브데이터셋을 별도로 추출합니다.코드 진행은 앞에서 했던 것들과 같습니다. 1. 데이터 로드하기 2. 범주형 변수 컬럼명 확인하기 3. 범주형 변수컬럼 데이터셋 추출하기 범주형 변수간 특성 분석하기 범주형 변수인 성별(gender) 변수와 연령대(age) 변수간 관련성을 파악하기 위하.. 2020. 9. 2.
R. 연속형 변수 특성 요약과 시각화(비율형) 비율형 척도 변수컬럼 특성 파악하기 비율형 척도 (ratio) 중에서 지출경비(expense)변수를 선정하여 지출경비 수치들이 가진 중심성, 변동성, 정규성 분포 특성을 파악합니다. 먼저 expense 컬럼을 뽑아내서 어떤 데이터인지 파악하겠습니다. library(Hmisc) Hmisc::describe(cnt$expense) 이제 산술평균, 중앙값, 최빈값을 파악하겠습니다. 1. 산술평균 mean(cnt$expense) mean(cnt$expense, na.rm = TRUE) mean(cnt$expense, na.rm = TRUE, trim = 0.3) 여기서 trim = 0.3을 적용한 mean을 보면 다른 값들에 비해서 현저히 낮은 것을 확인할 수가 있습니다. 이것은 평균에 비해서 극값이 있다는 사.. 2020. 8. 24.
R. 연속형 변수 특성 요약과 시각화(등간형) 연속형 변수 특성 요약과 시각화 연속형 변수 컬럼 서브데이터셋 추출하기 전체 데이터셋 변수 컬럼 중에서 분석 대상 객체 속성의 양적인 크기를 파악한 등간•간격척도와 비율 척도로 측정된 연속형 변수 컬럼 서브데이터셋을 별도로 추출합니다. 먼저 연속형 변수를 꺼내오기 위해 범주형 변수컬럼명을 파악한 후 데이터를 도출하겠습니다. 1. 전체 변수 컬럼명 파악 all_names 2020. 8. 24.
R. 데이터셋 로딩하기 - Excel, JSON, 외부링크 데이터 데이터셋 로딩하기 Excel데이터 로드하기 먼저 Excel 데이터를 로드하기 위해 다음과 같은 패키지를 설치하고 메모리에 로드하겠습니다. install.packages('readxl') library(readxl) 엑셀을 보면 하나의 시트가 이루어 진것이 아니라 다양한 시트들로 구성되어 있습니다. 여기 library에서 excel_sheets('파일이름')을 이용하면 엑셀 내부에 어떤 시트가 있는지 확인할 수 있습니다. 다음과 같은 파일의 시트 목록을 조회하겠습니다. excel_sheets('customer.xlsx') 그러면 다음과 같은 이름을 가진 두개의 시트가 있다는 것을 확인할 수 있습니다. 먼저 mycustomer시트의 데이터를 로딩하겠습니다. 1. mycustomer 시트 로드하기 cs_xl 2020. 8. 21.
데이터 모델링 및 데이터 탐색 모델링이란 문제해결에 관련된 변수를 선별하여 변수간 관계를 구조화된 그림(모형•모델)으로 형상화(모델링, 모형화)하는 작업이며, 문제 해결 과정및 목표, 자료 수집 가공및 처리를 위한 변수들로 구성됩니다. 데이터 분석 모델링(모형화) 문제 해결 과정 및 목표 변수 성과, 반응, 결과, 종속 변수 : 분석을 하는 궁극적인 이유와 목표에 해당하는 변수로서 적정 기준보다 높거나 낮아서 문제가 발생 영향, 투입, 예측, 설명, 독립 변수 : 종속변수의 상태를 적정 기준보다 높거나 낮게 만들어 문제상황을 발생시키는 원인이 되는 변수 조절, 상황, 교란, 혼동 변수 : 독립변수와 종속변수 간의 관계를 특정한 조건일 때 관계의 강도나 방향을 변화시키는 변수 매개 변수 : 독립변수와 종속변수 간에 직접적인 관계 사이에.. 2020. 8. 17.
다양한 데이터셋 파일유형 데이터셋 이란 데이터셋은 행과 열이라는 구조를 가지고 있는지, 사람과 분석도구가 처리하기 용이한지에 따라 정형, 반정형, 비정형 데이터셋으로 구별할 수 있으며, (R과 파이썬 등 다양한 분석도구)는 다양한 유형의 데이터셋 파일 포맷을 다룰 수 있습니다. 정형 데이터 셋(사람들이 이해하기 좋은 형태) 플레인 텍스트 파일 : 간단한 메모장 파일 형식으로 특별한 전용 프로그램 없이 쉽게 오픈 할 수 있습니다. 엑셀 파일 : 엑셀의 시트 단위로 다양한 주제의 개별 데이터셋을 저장해 놓고, 필요한 시트를 로딩해서 사용 상용 분석 SW파일 : SPSS, SPSS, State등 상용 분석 SW에서 다루는 전용 데이터셋 파일 DB 파일 : 오라클, MySQL 등 데이터베이스 관리 SW에서 사용하는 파일 포맷 반정형 데.. 2020. 8. 12.