본문 바로가기

데이터분석34

R. 데이터셋 로딩하기 - Excel, JSON, 외부링크 데이터 데이터셋 로딩하기 Excel데이터 로드하기 먼저 Excel 데이터를 로드하기 위해 다음과 같은 패키지를 설치하고 메모리에 로드하겠습니다. install.packages('readxl') library(readxl) 엑셀을 보면 하나의 시트가 이루어 진것이 아니라 다양한 시트들로 구성되어 있습니다. 여기 library에서 excel_sheets('파일이름')을 이용하면 엑셀 내부에 어떤 시트가 있는지 확인할 수 있습니다. 다음과 같은 파일의 시트 목록을 조회하겠습니다. excel_sheets('customer.xlsx') 그러면 다음과 같은 이름을 가진 두개의 시트가 있다는 것을 확인할 수 있습니다. 먼저 mycustomer시트의 데이터를 로딩하겠습니다. 1. mycustomer 시트 로드하기 cs_xl 2020. 8. 21.
R. 데이터셋 로딩하기 - 플레인 텍스트 파일 데이터셋 로딩하기 먼저 아래와 같은 명령어를 통해 현재 작업 경로를 확인하고 변경하겠습니다. getwd() setwd('현재 작업하고 있는 경로') 저는 setwd에 제가 작업하는 주소가 /Users/hyeon-am/Desktop/DataAnalysis/R/R_Test여서 이 주소를 넣었습니다. 그 후 로딩대상 플레인 텍스트 셋의 파일 인코딩 형식을 파악하기위해 다음과 같은 패키지를 설치한 후 메모리에 로드했습니다. install.packages('readr') library(readr) 그러면 guess_encoding('파일명') 이라는 명령어를 통해 해당 파일의 정보를 확인할 수 있습니다. 먼저 customer.csv라는 파일을 기본 로딩하겠습니다. cs 2020. 8. 21.
R. 변수와 데이터객체(구조) 유형 - 복합 데이터 구조 변수와 데이터객체(구조) 유형 복합 데이터 구조 객체유형 요소(원소) 차원 데이터 종류(동질성/이질성) 관련코드(함수) 팩터(factor) 단수/복수 1차원 숫자/문자/논리 유형 중 단일 유형으로만 구성 x 단, 변수(열,컬럼,필드)별로 단일 유형으로만 구성 x 단, 요소별로 단일한 데이터 유형으로만 구성 x 2020. 8. 20.
데이터 모델링 및 데이터 탐색 모델링이란 문제해결에 관련된 변수를 선별하여 변수간 관계를 구조화된 그림(모형•모델)으로 형상화(모델링, 모형화)하는 작업이며, 문제 해결 과정및 목표, 자료 수집 가공및 처리를 위한 변수들로 구성됩니다. 데이터 분석 모델링(모형화) 문제 해결 과정 및 목표 변수 성과, 반응, 결과, 종속 변수 : 분석을 하는 궁극적인 이유와 목표에 해당하는 변수로서 적정 기준보다 높거나 낮아서 문제가 발생 영향, 투입, 예측, 설명, 독립 변수 : 종속변수의 상태를 적정 기준보다 높거나 낮게 만들어 문제상황을 발생시키는 원인이 되는 변수 조절, 상황, 교란, 혼동 변수 : 독립변수와 종속변수 간의 관계를 특정한 조건일 때 관계의 강도나 방향을 변화시키는 변수 매개 변수 : 독립변수와 종속변수 간에 직접적인 관계 사이에.. 2020. 8. 17.
다양한 데이터셋 파일유형 데이터셋 이란 데이터셋은 행과 열이라는 구조를 가지고 있는지, 사람과 분석도구가 처리하기 용이한지에 따라 정형, 반정형, 비정형 데이터셋으로 구별할 수 있으며, (R과 파이썬 등 다양한 분석도구)는 다양한 유형의 데이터셋 파일 포맷을 다룰 수 있습니다. 정형 데이터 셋(사람들이 이해하기 좋은 형태) 플레인 텍스트 파일 : 간단한 메모장 파일 형식으로 특별한 전용 프로그램 없이 쉽게 오픈 할 수 있습니다. 엑셀 파일 : 엑셀의 시트 단위로 다양한 주제의 개별 데이터셋을 저장해 놓고, 필요한 시트를 로딩해서 사용 상용 분석 SW파일 : SPSS, SPSS, State등 상용 분석 SW에서 다루는 전용 데이터셋 파일 DB 파일 : 오라클, MySQL 등 데이터베이스 관리 SW에서 사용하는 파일 포맷 반정형 데.. 2020. 8. 12.
Numpy 시작하기 개념 먼저 Numpy란 "Numerical Python" 의 줄임말로 대규모 다차원 배열과 행렬 연산에 필요한 다양한 함수를 제공해줍니다. 특징 강력한 N 차원 어레이 빠르고 다양한 Numpy 벡터화, 인덱싱 및 브로드 캐스트 개념은 오늘날 어레이 컴퓨팅의 사실상 표준입니다. 수치 컴퓨팅 도구 Numpy 포괄적인 수학 함수, 난수 생성기, 선형 대수 루틴, 퓨리에 변환 등을 제공합니다. 상호 운용 Numpy는 광범위한 하드웨어 및 컴퓨팅 플랫폼을 지원하며 분산, GPU 및 희소 배열 라이브러리와 잘 작동합니다. 수행자 Numpy의 핵심은 최적화 된 C 코드입니다. 컴파일된 코드 속도로 Python을 유연하게 해줍니다. 사용하기가 쉽다 Numpy의 고급 구문은 모든 배경 또는 경험 수준의 프로그래머가 액세.. 2020. 7. 30.