모델링이란
문제해결에 관련된 변수를 선별하여 변수간 관계를 구조화된 그림(모형•모델)으로 형상화(모델링, 모형화)하는 작업이며, 문제 해결 과정및 목표, 자료 수집 가공및 처리를 위한 변수들로 구성됩니다.
데이터 분석 모델링(모형화)
문제 해결 과정 및 목표 변수
- 성과, 반응, 결과, 종속 변수 : 분석을 하는 궁극적인 이유와 목표에 해당하는 변수로서 적정 기준보다 높거나 낮아서 문제가 발생
- 영향, 투입, 예측, 설명, 독립 변수 : 종속변수의 상태를 적정 기준보다 높거나 낮게 만들어 문제상황을 발생시키는 원인이 되는 변수
- 조절, 상황, 교란, 혼동 변수 : 독립변수와 종속변수 간의 관계를 특정한 조건일 때 관계의 강도나 방향을 변화시키는 변수
- 매개 변수 : 독립변수와 종속변수 간에 직접적인 관계 사이에 작용하여 일종의 연결역할을 하는 변수
- 외생변수 : 연구자, 분석가가 (시간,인력,노력)을 들여서 통제할 수 없는 불가항력적인 변수
자료수집 가공 및 처리 변수
- 일반 변수 : 고객, 제품, 채널, 시설, 시간, 공간, 자연, 정책 등 분석대상에 대한 사실 및 상태를 측정한 값을 가진 변수
- 요약 변수 : 적절한 가공을 통해서 분석대상의 특성을 대표적인 수치로 요약•집계정리한 값을 가진 변수
- 파생변수 : 직간접적으로 수집한 변수들 중에서 상호관련성을 고려하여 만들어낸 제 3의 별도 변수
- 대리 변수 : 특정 변수에 대한 직접적인 자료수집이 어려워 간접적으로 유추해 볼 수 있는 값을 가진 변수
데이터 측정 방법
분석 모델을 구성하는 각 변수들의 조작적 정의에 따라 적적한 측정척도로 데이터를 수집해야 하며, 측정 척도가 가진 사칙연산 적용 유무에 특성에 따라 데이터를 가공 및 처리하는 방향도 달라지게 됩니다.
자료 유형
범주형•질적•정성(categorical, qualitative)
사칙연산 적용 불가 → 빈도 및 비율 분석으로 데이터를 처리해야 합니다.
- 이항형 : Yes or No(1 or 0)
- 남or여, 동의or거절
- 다향형 : 1,2,3,4,...(Comparing)
- 객관식을 생각하면 됩니다.
- 서열형 : 1<2<3<4 .... (Ranking)
- 등수를 생각하면 됩니다.
연속형•양적•정량(continuous, quantitative)
사칙연산 적용 가능 → 평균 및 분산 등으로 데이터를 처리해야 합니다.
- 등간형 : 1↔2↔3↔4↔ .... (counting)
- 비율형 : ratio(비율) (-무한 ~ 0 ~ 무한)
탐색적 데이터 분석
데이터셋을 중심성, 변동성, 정규성 등의 대표적 특성치로 요약해 데이터셋의 전반적인 특성을 파악하는 것을 탐색적 데이터분석 및 기술 통계학이라고 정의합니다.
중심성
데이터가 어느 부분에 집중되어 발생하고 있는가?
- 집중화 경향이라고도 하며, 특정 변수에 들어있는 데이터들이 전체적으로 어느 부분(수치)에 집중되어 있는지, 그 중심위치를 파악할 수 있습니다.
- 보통 산술평균이 가장 대표적인 중심성 수치입니다.
- 먼저 데이터를 작은값~큰값으로 나열한 후 **중앙값(median)**이나 데이터 수치들 중에서 가장 많이 관측 되는 **최빈치(mode)**를 통해 파악할 수 있습니다.
변동성
데이터가 가운데를 중심으로 얼마나 흩어져 있는가?
- 분산정도라고도 하며, 특정 변수에 들어있는 데이터들이 중심성 위치에서 얼마나 퍼져/떨어져 있는지 변동 가능성을 파악할 수 있도록 해 줍니다.
- 보통 분산이나 표준편차가 많이 사용됨
- 최소•최대값의 차이를 통한 범위(range), 일정한 간격으로 데이터값의 변화를 파악하는 **분위수(quantile)**도 활용됩니다.
정규성
데이터가 정규분포모양에서 얼마나 벗어나 있는가?
- 데이터의 **분포모양(shape)**과 관련된 것으로 보통 **정규(normal)•가우스(Gaussian)•분포(distribution)**와 비슷한지를 파악함
- 정규분포는 상대적으로 중심성과 변동성을 파악하기에 용이해 안정적인 예측분석결과를 얻을 수 있습니다.
- 가운데를 중심으로 데이터 분포가 대칭이 아닌 어느 한쪽으로 치우쳐 있는지를 왜도(skewness)로 파악하며, 가운데 위치에 데이터가 정규분포보다 많이 몰려 있는지, 완만하게 있는지를 첨도(kurtosis)를 통해 파악합니다.
데이터셋 준비와 분석방향
총 4가지 큰 분류(모델링, 데이터탐색, 데이터 처리, 데이터 분석)으로 접근한 후 세부 사항으로 나눕니다.
모델링
분석 모델링
- 분석 주제 파악 및 조사 설계, 조사내용 분석
- 분석 모델 구성 및 주요 변수 도출, 변수간 관계 설정
- 주요 분석 가설 수립
데이터 탐색
데이터 기본 탐색
- 데이터셋 로딩과 간단 탐색
- 전체 내용 조회, 기본 구조 파악, 내부 구조 파악
- 기본 요약, 전체 기술통계 분석, 기술 통계 분석 패키지 이용
데이터 요약 및 집계
- 전체 변수간, 범주형 변수간, 연속형 변수간, 산점도 매트릭스, 상관관계 매트릭스
- 범주형/연속형 변수간 산점도/관련성 매트릭스
- 산점도 매트릭스 패키지 이용
- 개별변수 및 다차원 변수 요약과 집계
데이터 처리
데이터 가공 및 정제
- 원천데이터 가공 처리
- 변수 리코딩
- 요약변수 만들기, 파생변수 만들기
- 원천데이터 정체처리
- 결측치, 이상치 처리학
- 데이터 변환
데이터 변형
- 데이터 구조 변형을 통한 와이드 포맷과 롱포맷간 변형하기
- 와이드 포맷과 롱포맷 특성 요약
- 데이터셋 바인딩 및 조인
- 데이터셋 분할과 샘플링
데이터 분석
모델 분석
- 범주형 데이터간 연관관계 분석
- 연속형 데이터간 상관관계 분석
- 범주형 연속형간 요약 및 집계분석
- 변수영역과 소속변수간 관계분석
이 자료는 https://www.youtube.com/channel/UChPuesN49tcqQqYRQHrLCuw를 참조하여 작성하였습니다.
'Data·AI > 관련자료' 카테고리의 다른 글
확률이란-1 (0) | 2021.03.30 |
---|---|
머신러닝 개요 (0) | 2020.09.01 |
다양한 공공데이터 포털 (0) | 2020.08.12 |
다양한 데이터셋 파일유형 (0) | 2020.08.12 |
데이터 분석가가 되기위한 역량, 기술 (0) | 2020.02.06 |
댓글