본문 바로가기
Data·AI/관련자료

데이터 모델링 및 데이터 탐색

by hyun-am 2020. 8. 17.

모델링이란

문제해결에 관련된 변수를 선별하여 변수간 관계를 구조화된 그림(모형•모델)으로 형상화(모델링, 모형화)하는 작업이며, 문제 해결 과정및 목표, 자료 수집 가공및 처리를 위한 변수들로 구성됩니다.

데이터 분석 모델링(모형화)

문제 해결 과정 및 목표 변수

  1. 성과, 반응, 결과, 종속 변수 : 분석을 하는 궁극적인 이유와 목표에 해당하는 변수로서 적정 기준보다 높거나 낮아서 문제가 발생
  2. 영향, 투입, 예측, 설명, 독립 변수 : 종속변수의 상태를 적정 기준보다 높거나 낮게 만들어 문제상황을 발생시키는 원인이 되는 변수
  3. 조절, 상황, 교란, 혼동 변수 : 독립변수와 종속변수 간의 관계를 특정한 조건일 때 관계의 강도나 방향을 변화시키는 변수
  4. 매개 변수 : 독립변수와 종속변수 간에 직접적인 관계 사이에 작용하여 일종의 연결역할을 하는 변수
  5. 외생변수 : 연구자, 분석가가 (시간,인력,노력)을 들여서 통제할 수 없는 불가항력적인 변수

자료수집 가공 및 처리 변수

  • 일반 변수 : 고객, 제품, 채널, 시설, 시간, 공간, 자연, 정책 등 분석대상에 대한 사실 및 상태를 측정한 값을 가진 변수
  • 요약 변수 : 적절한 가공을 통해서 분석대상의 특성을 대표적인 수치로 요약•집계정리한 값을 가진 변수
  • 파생변수 : 직간접적으로 수집한 변수들 중에서 상호관련성을 고려하여 만들어낸 제 3의 별도 변수
  • 대리 변수 : 특정 변수에 대한 직접적인 자료수집이 어려워 간접적으로 유추해 볼 수 있는 값을 가진 변수

데이터 측정 방법

분석 모델을 구성하는 각 변수들의 조작적 정의에 따라 적적한 측정척도로 데이터를 수집해야 하며, 측정 척도가 가진 사칙연산 적용 유무에 특성에 따라 데이터를 가공 및 처리하는 방향도 달라지게 됩니다.

자료 유형

범주형•질적•정성(categorical, qualitative)

사칙연산 적용 불가 → 빈도 및 비율 분석으로 데이터를 처리해야 합니다.

  • 이항형 : Yes or No(1 or 0)
    • 남or여, 동의or거절
  • 다향형 : 1,2,3,4,...(Comparing)
    • 객관식을 생각하면 됩니다.
  • 서열형 : 1<2<3<4 .... (Ranking)
    • 등수를 생각하면 됩니다.

연속형•양적•정량(continuous, quantitative)

사칙연산 적용 가능 → 평균 및 분산 등으로 데이터를 처리해야 합니다.

  • 등간형 : 1↔2↔3↔4↔ .... (counting)
  • 비율형 : ratio(비율) (-무한 ~ 0 ~ 무한)

탐색적 데이터 분석

데이터셋을 중심성, 변동성, 정규성 등의 대표적 특성치로 요약해 데이터셋의 전반적인 특성을 파악하는 것을 탐색적 데이터분석 및 기술 통계학이라고 정의합니다.

중심성

데이터가 어느 부분에 집중되어 발생하고 있는가?

  • 집중화 경향이라고도 하며, 특정 변수에 들어있는 데이터들이 전체적으로 어느 부분(수치)에 집중되어 있는지, 그 중심위치를 파악할 수 있습니다.
  • 보통 산술평균이 가장 대표적인 중심성 수치입니다.
  • 먼저 데이터를 작은값~큰값으로 나열한 후 **중앙값(median)**이나 데이터 수치들 중에서 가장 많이 관측 되는 **최빈치(mode)**를 통해 파악할 수 있습니다.

변동성

데이터가 가운데를 중심으로 얼마나 흩어져 있는가?

  • 분산정도라고도 하며, 특정 변수에 들어있는 데이터들이 중심성 위치에서 얼마나 퍼져/떨어져 있는지 변동 가능성을 파악할 수 있도록 해 줍니다.
  • 보통 분산이나 표준편차가 많이 사용됨
  • 최소•최대값의 차이를 통한 범위(range), 일정한 간격으로 데이터값의 변화를 파악하는 **분위수(quantile)**도 활용됩니다.

정규성

데이터가 정규분포모양에서 얼마나 벗어나 있는가?

  • 데이터의 **분포모양(shape)**과 관련된 것으로 보통 **정규(normal)•가우스(Gaussian)•분포(distribution)**와 비슷한지를 파악함
  • 정규분포는 상대적으로 중심성과 변동성을 파악하기에 용이해 안정적인 예측분석결과를 얻을 수 있습니다.
  • 가운데를 중심으로 데이터 분포가 대칭이 아닌 어느 한쪽으로 치우쳐 있는지를 왜도(skewness)로 파악하며, 가운데 위치에 데이터가 정규분포보다 많이 몰려 있는지, 완만하게 있는지를 첨도(kurtosis)를 통해 파악합니다.

데이터셋 준비와 분석방향

총 4가지 큰 분류(모델링, 데이터탐색, 데이터 처리, 데이터 분석)으로 접근한 후 세부 사항으로 나눕니다.

모델링

분석 모델링

  • 분석 주제 파악 및 조사 설계, 조사내용 분석
  • 분석 모델 구성 및 주요 변수 도출, 변수간 관계 설정
  • 주요 분석 가설 수립

데이터 탐색

데이터 기본 탐색

  • 데이터셋 로딩과 간단 탐색
  • 전체 내용 조회, 기본 구조 파악, 내부 구조 파악
  • 기본 요약, 전체 기술통계 분석, 기술 통계 분석 패키지 이용

데이터 요약 및 집계

  • 전체 변수간, 범주형 변수간, 연속형 변수간, 산점도 매트릭스, 상관관계 매트릭스
  • 범주형/연속형 변수간 산점도/관련성 매트릭스
  • 산점도 매트릭스 패키지 이용
  • 개별변수 및 다차원 변수 요약과 집계

데이터 처리

데이터 가공 및 정제

  • 원천데이터 가공 처리
  • 변수 리코딩
  • 요약변수 만들기, 파생변수 만들기
  • 원천데이터 정체처리
  • 결측치, 이상치 처리학
  • 데이터 변환

데이터 변형

  • 데이터 구조 변형을 통한 와이드 포맷과 롱포맷간 변형하기
  • 와이드 포맷과 롱포맷 특성 요약
  • 데이터셋 바인딩 및 조인
  • 데이터셋 분할과 샘플링

데이터 분석

모델 분석

  • 범주형 데이터간 연관관계 분석
  • 연속형 데이터간 상관관계 분석
  • 범주형 연속형간 요약 및 집계분석
  • 변수영역과 소속변수간 관계분석

이 자료는 https://www.youtube.com/channel/UChPuesN49tcqQqYRQHrLCuw를 참조하여 작성하였습니다.

 

K-ICT 빅데이터센터

판교 K-ICT 빅데이터센터 공식 유튜브 채널입니다.

www.youtube.com

 

'Data·AI > 관련자료' 카테고리의 다른 글

확률이란-1  (0) 2021.03.30
머신러닝 개요  (0) 2020.09.01
다양한 공공데이터 포털  (0) 2020.08.12
다양한 데이터셋 파일유형  (0) 2020.08.12
데이터 분석가가 되기위한 역량, 기술  (0) 2020.02.06

댓글