본문 바로가기

Data·AI/관련자료23

확률이란-1 확률이란 어떤 사건이 일어날 것인지 혹은 일어났는지에 대한 지식 혹은 믿음을 표현하는 방법입니다. 만약에 A가 일어날 확률은 다음과 같이 표기할 수 있습니다. P(A) 확률실험 실험의 결과는 미리 알 수 없다. 실험에서 일어날 수 있는 모든 결과는 사전에 알려져 있다. 이론적으로는 실험을 반복할 수 있다. 확률시험 예제 두 동전을 던지는 시행. (앞,뒤) 쌍으로 결과를 표시 표본 공간(Sample space) : {(앞,앞),(앞,뒤),(뒤,앞),(뒤,뒤)} 근원 사건(Sample outcome) : (앞,앞),(앞,뒤),(뒤,앞),(뒤,뒤) 사건(Event) : 앞면이 한 번이라도 나오는 사건 = {(앞,앞),(앞,뒤),(뒤,앞)} 조건부 확률 조건부 확률이란 주어진 사건이 일어났다는 가정하에 다른 한.. 2021. 3. 30.
머신러닝 개요 머신러닝 기본 개념 데이터로 부터 학습하도록 컴퓨터를 프로그래밍을 하는 분야입니다. 또한 명시적인 프로그래밍 없이 컴퓨터가 스스로 학습하는 능력을 부여하는 것입니다. 과거 경험에서 학습을 통해 얻은 지식을 미래의 결정에 이용하는 컴퓨터 과학의 한 분야입니다. 관측된 패턴을 일반화하거나 주어진 샘플을 통해 새로운 규칙을 생성하는 목표를 가집니다. 머신러닝이 적용된 예시 알파고 자율주행차 음성인식 문자인식 그림인식 TTS 이것들 말고도 다양한 것들에서 머신러닝이 적용된 예시들을 살펴볼 수 있습니다. 머신러닝을 적용하기 전 전통적인 접근 방법 하지만 이런 방식으로 진행하다 보면 스팸메일이 아닌데 스팸메일로 구분하거나 스팸메일인데 일반 메일로 구분할 수도 있습니다. 이것을 해결하기 위해 머신러닝을 이용합니다. .. 2020. 9. 1.
데이터 모델링 및 데이터 탐색 모델링이란 문제해결에 관련된 변수를 선별하여 변수간 관계를 구조화된 그림(모형•모델)으로 형상화(모델링, 모형화)하는 작업이며, 문제 해결 과정및 목표, 자료 수집 가공및 처리를 위한 변수들로 구성됩니다. 데이터 분석 모델링(모형화) 문제 해결 과정 및 목표 변수 성과, 반응, 결과, 종속 변수 : 분석을 하는 궁극적인 이유와 목표에 해당하는 변수로서 적정 기준보다 높거나 낮아서 문제가 발생 영향, 투입, 예측, 설명, 독립 변수 : 종속변수의 상태를 적정 기준보다 높거나 낮게 만들어 문제상황을 발생시키는 원인이 되는 변수 조절, 상황, 교란, 혼동 변수 : 독립변수와 종속변수 간의 관계를 특정한 조건일 때 관계의 강도나 방향을 변화시키는 변수 매개 변수 : 독립변수와 종속변수 간에 직접적인 관계 사이에.. 2020. 8. 17.
다양한 공공데이터 포털 국내 공공데이터 포털 정부부처 및 각급기관에서 발생하는 다양한 공공데이터를 통합해서 제공하는 공공부분 데이터포탈에서 주제별 및 형식 별 필요 데이터를 무료로 다운받을 수 있습니다. 공공데이터포털(www.data.go.kr) 공공기관이 생성 또는 취득하여 관리하고 있는 공공데이터를 한 곳에서 검색 및 다운로드 받는 통합 창구 사이트 입니다. 공공데이터 포털 국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Datase www.data.go.kr 서울 열린데이터 광장(data.seoul.go.kr) 서울시민의 생활과 밀접한 교통, 문화, 공간 등 사회∙경제적 사용가치가 높은 서.. 2020. 8. 12.
다양한 데이터셋 파일유형 데이터셋 이란 데이터셋은 행과 열이라는 구조를 가지고 있는지, 사람과 분석도구가 처리하기 용이한지에 따라 정형, 반정형, 비정형 데이터셋으로 구별할 수 있으며, (R과 파이썬 등 다양한 분석도구)는 다양한 유형의 데이터셋 파일 포맷을 다룰 수 있습니다. 정형 데이터 셋(사람들이 이해하기 좋은 형태) 플레인 텍스트 파일 : 간단한 메모장 파일 형식으로 특별한 전용 프로그램 없이 쉽게 오픈 할 수 있습니다. 엑셀 파일 : 엑셀의 시트 단위로 다양한 주제의 개별 데이터셋을 저장해 놓고, 필요한 시트를 로딩해서 사용 상용 분석 SW파일 : SPSS, SPSS, State등 상용 분석 SW에서 다루는 전용 데이터셋 파일 DB 파일 : 오라클, MySQL 등 데이터베이스 관리 SW에서 사용하는 파일 포맷 반정형 데.. 2020. 8. 12.
데이터 분석가가 되기위한 역량, 기술 데이터 분석가에게 필요한 기술 1. EDA 먼저 기본적으로 데이터 분석가에게 필요한 기술은 EDA를 알아야합니다. EDA란 탐색적 자료분석이라는 뜻으로 (Exploratory Data Analysis)의 줄임말 입니다. EDA는 6가지의 의사 결정 단계가 있는데 데이터 가지고오기 데이터 모양 확인하기 데이터 타입 확인하기 데이터 기초 분석 데이터 클린징 데이터 시각화 로 되어 있으며 이것을 통합해서 의사 결정을 할 수 있습니다. 2. 데이터에 대한 이해 먼저 데이터에 대한 이해가 필요하므로 RDBMS에서 사용하는 SQL에 대한 이해가 필요하고 Mongo DB와 같은 No SQL을 사용하는 데이터베이스를 위한 JSON에 대한 지식도 필요합니다. 이것은 EDA에서 2번(데이터 모양 확인하기)와 3번(데이터 .. 2020. 2. 6.