데이터 분석가에게 필요한 기술
1. EDA
먼저 기본적으로 데이터 분석가에게 필요한 기술은 EDA를 알아야합니다. EDA란 탐색적 자료분석이라는 뜻으로 (Exploratory Data Analysis)의 줄임말 입니다. EDA는 6가지의 의사 결정 단계가 있는데
- 데이터 가지고오기
- 데이터 모양 확인하기
- 데이터 타입 확인하기
- 데이터 기초 분석
- 데이터 클린징
- 데이터 시각화
로 되어 있으며 이것을 통합해서 의사 결정을 할 수 있습니다.
2. 데이터에 대한 이해
먼저 데이터에 대한 이해가 필요하므로 RDBMS에서 사용하는 SQL에 대한 이해가 필요하고 Mongo DB와 같은 No SQL을 사용하는 데이터베이스를 위한 JSON에 대한 지식도 필요합니다.
이것은 EDA에서 2번(데이터 모양 확인하기)와 3번(데이터 타입 확인하기)에 해당합니다.
3. 분석 Tool에 대한 이해
데이터 분석 도구는 다양합니다. 예를 들면 MS Excel, Python(Pandas), R, SAS, SPSS, 래피드 마이너, Anaconda, Tensorflow, Tableau, Qlik 등 여러가지 도구가 있는데 가장 자주 사용하는 툴은 아래와 같습니다.
- 오픈소스 : R, Python, Anaconda
- 유료 : SAS, SPSS
이러한 분석 Tool에 대한 이해가 필요한 이유는 아무리 데이터에 대한 이해를 해도 분석 Tool에서 사용하는 함수나 다양한 라이브러리를 모르면 데이터를 가공하는데 문제가 있기 때문입니다. 그래서 분석 Tool에서 사용하는 언어나 함수 및 라이브러리를 잘 익혀야 합니다.
4. 비즈니스 커뮤니케이션
데이터 분석가에게는 커뮤니케이션을 잘하는 것이 다른 직업군 보다 더욱 중요합니다. 왜냐하면 데이터가 다른 여러 부서와 관련이 되어 있고, 분석결과를 다른 부서의 의사 결정자가 활용하기 때문입니다. 그리고 필수적인 커뮤니케이션 능력은 아래 두가지가 있습니다.
- 문제 정의 능력 : 무엇을 해결하고자 하는지 명확하게 알지 못하면 문제를 해결할 수 없습니다. 따라서 데이터를 분석하기 전에 원하는 목적과 비즈니스 임팩트가 무엇인지를 구체적으로 정의하는 것이 중요합니다.
- 결과 전달 능력 : 어떻게 분석결과를 보여주어야 의사결정자가 잘 이해해줄지 정하는 능력입니다. 예를 들면 데이터 시각화 할대는 다양한 도표들이 있는데 여기서도 적절한 것을 골라야 하고 또한 여러가지 통계 기술을 통해 설명해야 합니다.
5. 통계 능력
데이터 분석가가에게 필요한 능력중에서 통계능력이 있는데 이 능력이 필요한 이유는 데이터와 도표를 뽑아냈는데 이것을 어떻게 결과를 도출해야할지 모릅니다. 이때 필요한게 통계 기법입니다. 대표적인 통계 기법은 아래와 같습니다.
- 집단 간 비교 검증
- 교차분석 : 범주형 자료의 두 개 이상 변수들 사이의 "관련성"을 알아보기 위함
- 차이검증(T-test) : 두 집단간의 차이가 유의한가를 검증하기 위해 사용됩니다. 여기서 유의하다의 뜻은 확률적으로 봐서 단순한 우연이라고 생각되지 않을 정도로 의미가 있다는 뜻을 가지고 있습니다.
- 변량 분석, 분산분석(Anova) : 통계학에서 두 개 이상 다수의 집단을 비교하고자 할 때 집단 내의 분산, 총평균과 각 집단의 평균의 차이에 의해 생긴 집단 간 분산의 비교를 통해 만들어진 F분포를 이용하여 가설검정을 하는 방법 입니다.
- 변수 간 관련성 검증
- 상관 분석 : 두 변수간에 어떤 선형적 또는 비선형적 관계를 갖고 있는지를 분석하는 방법입니다.
- 회귀 분석 : 인과관계, 독립변수가 종속변수에 영향을 미치는 정도를 분석
- 고급 분석
'Data·AI > 관련자료' 카테고리의 다른 글
다양한 공공데이터 포털 (0) | 2020.08.12 |
---|---|
다양한 데이터셋 파일유형 (0) | 2020.08.12 |
Modern BI 제품 5가지 (0) | 2020.02.04 |
통계 분석 기법을 이용하기 위한 가설 검정 (0) | 2019.05.28 |
SKT·대구시·대구경찰, 유동인구 빅데이터 활용 안전사회 조성한다 (0) | 2019.05.25 |
댓글