모델링이란

문제해결에 관련된 변수를 선별하여 변수간 관계를 구조화된 그림(모형•모델)으로 형상화(모델링, 모형화)하는 작업이며, 문제 해결 과정및 목표, 자료 수집 가공및 처리를 위한 변수들로 구성됩니다.

데이터 분석 모델링(모형화)

문제 해결 과정 및 목표 변수

성과, 반응, 결과, 종속 변수 : 분석을 하는 궁극적인 이유와 목표에 해당하는 변수로서 적정 기준보다 높거나 낮아서 문제가 발생
영향, 투입, 예측, 설명, 독립 변수 : 종속변수의 상태를 적정 기준보다 높거나 낮게 만들어 문제상황을 발생시키는 원인이 되는 변수
조절, 상황, 교란, 혼동 변수 : 독립변수와 종속변수 간의 관계를 특정한 조건일 때 관계의 강도나 방향을 변화시키는 변수
매개 변수 : 독립변수와 종속변수 간에 직접적인 관계 사이에 작용하여 일종의 연결역할을 하는 변수
외생변수 : 연구자, 분석가가 (시간,인력,노력)을 들여서 통제할 수 없는 불가항력적인 변수

자료수집 가공 및 처리 변수

일반 변수 : 고객, 제품, 채널, 시설, 시간, 공간, 자연, 정책 등 분석대상에 대한 사실 및 상태를 측정한 값을 가진 변수
요약 변수 : 적절한 가공을 통해서 분석대상의 특성을 대표적인 수치로 요약•집계정리한 값을 가진 변수
파생변수 : 직간접적으로 수집한 변수들 중에서 상호관련성을 고려하여 만들어낸 제 3의 별도 변수
대리 변수 : 특정 변수에 대한 직접적인 자료수집이 어려워 간접적으로 유추해 볼 수 있는 값을 가진 변수

데이터 측정 방법

분석 모델을 구성하는 각 변수들의 조작적 정의에 따라 적적한 측정척도로 데이터를 수집해야 하며, 측정 척도가 가진 사칙연산 적용 유무에 특성에 따라 데이터를 가공 및 처리하는 방향도 달라지게 됩니다.

자료 유형

범주형•질적•정성(categorical, qualitative)

사칙연산 적용 불가 → 빈도 및 비율 분석으로 데이터를 처리해야 합니다.

이항형 : Yes or No(1 or 0)
- 남or여, 동의or거절
다향형 : 1,2,3,4,...(Comparing)
- 객관식을 생각하면 됩니다.
서열형 : 1<2<3<4 .... (Ranking)
- 등수를 생각하면 됩니다.

연속형•양적•정량(continuous, quantitative)

사칙연산 적용 가능 → 평균 및 분산 등으로 데이터를 처리해야 합니다.

등간형 : 1↔2↔3↔4↔ .... (counting)
비율형 : ratio(비율) (-무한 ~ 0 ~ 무한)

탐색적 데이터 분석

데이터셋을 중심성, 변동성, 정규성 등의 대표적 특성치로 요약해 데이터셋의 전반적인 특성을 파악하는 것을 탐색적 데이터분석 및 기술 통계학이라고 정의합니다.

중심성

데이터가 어느 부분에 집중되어 발생하고 있는가?

집중화 경향이라고도 하며, 특정 변수에 들어있는 데이터들이 전체적으로 어느 부분(수치)에 집중되어 있는지, 그 중심위치를 파악할 수 있습니다.
보통 산술평균이 가장 대표적인 중심성 수치입니다.
먼저 데이터를 작은값~큰값으로 나열한 후 **중앙값(median)**이나 데이터 수치들 중에서 가장 많이 관측 되는 **최빈치(mode)**를 통해 파악할 수 있습니다.

변동성

데이터가 가운데를 중심으로 얼마나 흩어져 있는가?

분산정도라고도 하며, 특정 변수에 들어있는 데이터들이 중심성 위치에서 얼마나 퍼져/떨어져 있는지 변동 가능성을 파악할 수 있도록 해 줍니다.
보통 분산이나 표준편차가 많이 사용됨
최소•최대값의 차이를 통한 범위(range), 일정한 간격으로 데이터값의 변화를 파악하는 **분위수(quantile)**도 활용됩니다.

정규성

데이터가 정규분포모양에서 얼마나 벗어나 있는가?

데이터의 **분포모양(shape)**과 관련된 것으로 보통 **정규(normal)•가우스(Gaussian)•분포(distribution)**와 비슷한지를 파악함
정규분포는 상대적으로 중심성과 변동성을 파악하기에 용이해 안정적인 예측분석결과를 얻을 수 있습니다.
가운데를 중심으로 데이터 분포가 대칭이 아닌 어느 한쪽으로 치우쳐 있는지를 왜도(skewness)로 파악하며, 가운데 위치에 데이터가 정규분포보다 많이 몰려 있는지, 완만하게 있는지를 첨도(kurtosis)를 통해 파악합니다.

데이터셋 준비와 분석방향

총 4가지 큰 분류(모델링, 데이터탐색, 데이터 처리, 데이터 분석)으로 접근한 후 세부 사항으로 나눕니다.

모델링

분석 모델링

분석 주제 파악 및 조사 설계, 조사내용 분석
분석 모델 구성 및 주요 변수 도출, 변수간 관계 설정
주요 분석 가설 수립

데이터 탐색

데이터 기본 탐색

데이터셋 로딩과 간단 탐색
전체 내용 조회, 기본 구조 파악, 내부 구조 파악
기본 요약, 전체 기술통계 분석, 기술 통계 분석 패키지 이용

데이터 요약 및 집계

전체 변수간, 범주형 변수간, 연속형 변수간, 산점도 매트릭스, 상관관계 매트릭스
범주형/연속형 변수간 산점도/관련성 매트릭스
산점도 매트릭스 패키지 이용
개별변수 및 다차원 변수 요약과 집계

데이터 처리

데이터 가공 및 정제

원천데이터 가공 처리
변수 리코딩
요약변수 만들기, 파생변수 만들기
원천데이터 정체처리
결측치, 이상치 처리학
데이터 변환

데이터 변형

데이터 구조 변형을 통한 와이드 포맷과 롱포맷간 변형하기
와이드 포맷과 롱포맷 특성 요약
데이터셋 바인딩 및 조인
데이터셋 분할과 샘플링

데이터 분석

모델 분석

범주형 데이터간 연관관계 분석
연속형 데이터간 상관관계 분석
범주형 연속형간 요약 및 집계분석
변수영역과 소속변수간 관계분석

이 자료는 https://www.youtube.com/channel/UChPuesN49tcqQqYRQHrLCuw를 참조하여 작성하였습니다.

K-ICT 빅데이터센터

판교 K-ICT 빅데이터센터 공식 유튜브 채널입니다.

www.youtube.com

저작자표시

'Data·AI > 관련자료' 카테고리의 다른 글

확률이란-1 (0)	2021.03.30
머신러닝 개요 (0)	2020.09.01
다양한 공공데이터 포털 (0)	2020.08.12
다양한 데이터셋 파일유형 (0)	2020.08.12
데이터 분석가가 되기위한 역량, 기술 (0)	2020.02.06

데이터 모델링 및 데이터 탐색

모델링이란

데이터 분석 모델링(모형화)

문제 해결 과정 및 목표 변수

자료수집 가공 및 처리 변수

데이터 측정 방법

자료 유형

범주형•질적•정성(categorical, qualitative)

연속형•양적•정량(continuous, quantitative)

탐색적 데이터 분석

중심성

변동성

정규성

데이터셋 준비와 분석방향

모델링

분석 모델링

데이터 탐색

데이터 기본 탐색

데이터 요약 및 집계

데이터 처리

데이터 가공 및 정제

데이터 변형

데이터 분석

모델 분석

'Data·AI > 관련자료' 카테고리의 다른 글

댓글

티스토리툴바

데이터 모델링 및 데이터 탐색

모델링이란

데이터 분석 모델링(모형화)

문제 해결 과정 및 목표 변수

자료수집 가공 및 처리 변수

데이터 측정 방법

자료 유형

범주형•질적•정성(categorical, qualitative)

연속형•양적•정량(continuous, quantitative)

탐색적 데이터 분석

중심성

변동성

정규성

데이터셋 준비와 분석방향

모델링

분석 모델링

데이터 탐색

데이터 기본 탐색

데이터 요약 및 집계

데이터 처리

데이터 가공 및 정제

데이터 변형

데이터 분석

모델 분석

'Data·AI > 관련자료' 카테고리의 다른 글

관련글

댓글

티스토리툴바