데이터셋 이란
데이터셋은 행과 열이라는 구조를 가지고 있는지, 사람과 분석도구가 처리하기 용이한지에 따라 정형, 반정형, 비정형 데이터셋으로 구별할 수 있으며, (R과 파이썬 등 다양한 분석도구)는 다양한 유형의 데이터셋 파일 포맷을 다룰 수 있습니다.
정형 데이터 셋(사람들이 이해하기 좋은 형태)
- 플레인 텍스트 파일 : 간단한 메모장 파일 형식으로 특별한 전용 프로그램 없이 쉽게 오픈 할 수 있습니다.
- 엑셀 파일 : 엑셀의 시트 단위로 다양한 주제의 개별 데이터셋을 저장해 놓고, 필요한 시트를 로딩해서 사용
- 상용 분석 SW파일 : SPSS, SPSS, State등 상용 분석 SW에서 다루는 전용 데이터셋 파일
- DB 파일 : 오라클, MySQL 등 데이터베이스 관리 SW에서 사용하는 파일 포맷
반정형 데이터 셋(비정형 + 반정형)
- JSON 파일 : JavaScript Object Notation의 줄임말로 자바스크립트 형식에 따라 데이터 객체나 변수를 표현하는데, 여러 프로그래밍 언어에서 자유롭게 호환 사용이 가능합니다.
- XML 파일 : eXtensible Markup Language, 사람이 작성하고 이해하기가 쉬우며, 확장성이 뛰어납니다.
비정형 데이터 셋(행과 열이 없는 비정형)
- 텍스트 파일 : 일반적인 문자, 숫자, 특수기호, 문장부호 등이 사용된 문자열
- 이미지 파일 : 이미지 데이터 포멧
- 멀티 미디어 파일 : 음파 파동을 높낮이를 가진 좌표 수치로 변환한 오디오파일, 이미지, 오디오 정보 종합
- 전용 데이터 파일 : 0과 1로 이루어진 기계어로 인식 및 처리할 수 있는 파일 포맷
이 자료는 https://www.youtube.com/channel/UChPuesN49tcqQqYRQHrLCuw를 참조하여 작성하였습니다.
'Data·AI > 관련자료' 카테고리의 다른 글
데이터 모델링 및 데이터 탐색 (0) | 2020.08.17 |
---|---|
다양한 공공데이터 포털 (0) | 2020.08.12 |
데이터 분석가가 되기위한 역량, 기술 (0) | 2020.02.06 |
Modern BI 제품 5가지 (0) | 2020.02.04 |
통계 분석 기법을 이용하기 위한 가설 검정 (0) | 2019.05.28 |
댓글