본문 바로가기

Data·AI62

확률이란-1 확률이란 어떤 사건이 일어날 것인지 혹은 일어났는지에 대한 지식 혹은 믿음을 표현하는 방법입니다. 만약에 A가 일어날 확률은 다음과 같이 표기할 수 있습니다. P(A) 확률실험 실험의 결과는 미리 알 수 없다. 실험에서 일어날 수 있는 모든 결과는 사전에 알려져 있다. 이론적으로는 실험을 반복할 수 있다. 확률시험 예제 두 동전을 던지는 시행. (앞,뒤) 쌍으로 결과를 표시 표본 공간(Sample space) : {(앞,앞),(앞,뒤),(뒤,앞),(뒤,뒤)} 근원 사건(Sample outcome) : (앞,앞),(앞,뒤),(뒤,앞),(뒤,뒤) 사건(Event) : 앞면이 한 번이라도 나오는 사건 = {(앞,앞),(앞,뒤),(뒤,앞)} 조건부 확률 조건부 확률이란 주어진 사건이 일어났다는 가정하에 다른 한.. 2021. 3. 30.
R. 범주형 변수간 특성요약과 시각화 범주형 변수간 분석방향성 분석대상 객체의 속성을 항목을 구별하는 방식으로 데이터를 수집 및 분석하는 범주형 변수 간에는 빈도와 비율을 활용한 교차 빈도•비율•백분율 분석을 활용해 다차원 적으로 여러 범주변수 간의 관련성(연관성)을 파악할 수 있습니다. R로 실습해보기 범주형 변수컬럼 서브데이터셋 추출 전체 데이터셋 변수 컬럼 중에서 항목을 구별해주는 역할을 하는 이항•다항 명목척도, 서열•순서척도로 측정된 범주형 변수 컬럼 서브데이터셋을 별도로 추출합니다.코드 진행은 앞에서 했던 것들과 같습니다. 1. 데이터 로드하기 2. 범주형 변수 컬럼명 확인하기 3. 범주형 변수컬럼 데이터셋 추출하기 범주형 변수간 특성 분석하기 범주형 변수인 성별(gender) 변수와 연령대(age) 변수간 관련성을 파악하기 위하.. 2020. 9. 2.
머신러닝 개요 머신러닝 기본 개념 데이터로 부터 학습하도록 컴퓨터를 프로그래밍을 하는 분야입니다. 또한 명시적인 프로그래밍 없이 컴퓨터가 스스로 학습하는 능력을 부여하는 것입니다. 과거 경험에서 학습을 통해 얻은 지식을 미래의 결정에 이용하는 컴퓨터 과학의 한 분야입니다. 관측된 패턴을 일반화하거나 주어진 샘플을 통해 새로운 규칙을 생성하는 목표를 가집니다. 머신러닝이 적용된 예시 알파고 자율주행차 음성인식 문자인식 그림인식 TTS 이것들 말고도 다양한 것들에서 머신러닝이 적용된 예시들을 살펴볼 수 있습니다. 머신러닝을 적용하기 전 전통적인 접근 방법 하지만 이런 방식으로 진행하다 보면 스팸메일이 아닌데 스팸메일로 구분하거나 스팸메일인데 일반 메일로 구분할 수도 있습니다. 이것을 해결하기 위해 머신러닝을 이용합니다. .. 2020. 9. 1.
R. 연속형 변수 특성 요약과 시각화(비율형) 비율형 척도 변수컬럼 특성 파악하기 비율형 척도 (ratio) 중에서 지출경비(expense)변수를 선정하여 지출경비 수치들이 가진 중심성, 변동성, 정규성 분포 특성을 파악합니다. 먼저 expense 컬럼을 뽑아내서 어떤 데이터인지 파악하겠습니다. library(Hmisc) Hmisc::describe(cnt$expense) 이제 산술평균, 중앙값, 최빈값을 파악하겠습니다. 1. 산술평균 mean(cnt$expense) mean(cnt$expense, na.rm = TRUE) mean(cnt$expense, na.rm = TRUE, trim = 0.3) 여기서 trim = 0.3을 적용한 mean을 보면 다른 값들에 비해서 현저히 낮은 것을 확인할 수가 있습니다. 이것은 평균에 비해서 극값이 있다는 사.. 2020. 8. 24.
R. 연속형 변수 특성 요약과 시각화(등간형) 연속형 변수 특성 요약과 시각화 연속형 변수 컬럼 서브데이터셋 추출하기 전체 데이터셋 변수 컬럼 중에서 분석 대상 객체 속성의 양적인 크기를 파악한 등간•간격척도와 비율 척도로 측정된 연속형 변수 컬럼 서브데이터셋을 별도로 추출합니다. 먼저 연속형 변수를 꺼내오기 위해 범주형 변수컬럼명을 파악한 후 데이터를 도출하겠습니다. 1. 전체 변수 컬럼명 파악 all_names 2020. 8. 24.
R. 범주형 변수 특성 요약과 시각화(이항형, 다향형) 범주형 변수 컬럼 서브데이터셋 추출 먼저 전체 데이터셋 변수컬럼 중에서 항목을 구별해주는 역할을 하는 이항,(다항•명목), 서열형 데이터로 측정된 변수컬럼 서브데이터셋을 별도로 추출하겠습니다. 1. 데이터 불러오기 my 2020. 8. 24.