머신러닝 기본 개념

데이터로 부터 학습하도록 컴퓨터를 프로그래밍을 하는 분야입니다. 또한 명시적인 프로그래밍 없이 컴퓨터가 스스로 학습하는 능력을 부여하는 것입니다.

과거 경험에서 학습을 통해 얻은 지식을 미래의 결정에 이용하는 컴퓨터 과학의 한 분야입니다.

관측된 패턴을 일반화하거나 주어진 샘플을 통해 새로운 규칙을 생성하는 목표를 가집니다.

머신러닝이 적용된 예시

이것들 말고도 다양한 것들에서 머신러닝이 적용된 예시들을 살펴볼 수 있습니다.

하지만 이런 방식으로 진행하다 보면 스팸메일이 아닌데 스팸메일로 구분하거나 스팸메일인데 일반 메일로 구분할 수도 있습니다. 이것을 해결하기 위해 머신러닝을 이용합니다.

머신러닝을 통해 오차를 충분히 줄여준다음 그것을 통해 올바르게 데이터를 구별해 줄 수도 있습니다.

컴퓨터가 데이터를 가지고 머신러닝을 훈련해서 데이터를 분석하는데 기존에 전통적인 방식에 비해서 비용, 적응성, 새로운 가치의 측면에서 매우 유용해서 머신러닝을 사용할 수 밖에 없습니다.

학습 데이터가 입력(특징 행렬)과 출력(대상 벡터) 쌍으로 제공됩니다. → 레이블 데이터

학습목표는 입력 특징 행렬과 출력 대상 벡터를 매핑시키는 규칙을 찾는 것입니다.

입력 특징 행렬에 대해 출력 대상 벡터가 알려져 있으므로 → 지도라고 부릅니다.

해결할 수 있는 대표적인 문제로는 회귀(연속형 수치 데이터 예측)과 분류(범주형 데이터인 클래스 레이블 예측)

알고리즘 종류로는 k-최근점 이웃, 선형 회귀, 로지스틱 회귀, 서포트 벡터 머신, 결정트리와 랜덤포레스트 마지막으로 신경망이 있습니다.

학습 데이터로 입력(특징 행렬)만 제공됨 → 레이블 없는 데이터

입력 특징 행렬에 대한 출력 대상 벡터가 없으므로 비지도 라고 부릅니다.

해결할 수 있는 대표적인 문제는 군집(특징이 비슷한 것들끼리 묶어 군을 만드는 것)과 시각화와 차원축소(시각화 시 인간이 인지할 수 있는 차원(2차원 등)으로 축소하는 것) 마지막으로 연관 규칙학습(구매 경향성 규칙 발견 등(장바구니 분석))

학습 데이터에 레이블 일부만 있는 경우

예를 들면 사진 입력을 통해 분석을 할 경우 정면 측면 등 다양한 각도가 있습니다. 이것을 설명하면

동일 인물 군집, 개인 정보(레이블)붙이기

사진 입력을 통한 사람 식별(군집) + 개인정보 레이블

심층신뢰신경망(DBN)은 제한된 볼츠만 머신(RBM)과 같은 비지도학습에 기초합니다.

K-ICT 빅데이터센터

판교 K-ICT 빅데이터센터 공식 유튜브 채널입니다.

www.youtube.com