본문 바로가기
Data·AI/관련자료

다양한 데이터셋 파일유형

by hyun-am 2020. 8. 12.

데이터셋 이란

데이터셋은 행과 열이라는 구조를 가지고 있는지, 사람과 분석도구가 처리하기 용이한지에 따라 정형, 반정형, 비정형 데이터셋으로 구별할 수 있으며, (R과 파이썬 등 다양한 분석도구)는 다양한 유형의 데이터셋 파일 포맷을 다룰 수 있습니다.

정형 데이터 셋(사람들이 이해하기 좋은 형태)

  • 플레인 텍스트 파일 : 간단한 메모장 파일 형식으로 특별한 전용 프로그램 없이 쉽게 오픈 할 수 있습니다.
  • 엑셀 파일 : 엑셀의 시트 단위로 다양한 주제의 개별 데이터셋을 저장해 놓고, 필요한 시트를 로딩해서 사용
  • 상용 분석 SW파일 : SPSS, SPSS, State등 상용 분석 SW에서 다루는 전용 데이터셋 파일
  • DB 파일 : 오라클, MySQL 등 데이터베이스 관리 SW에서 사용하는 파일 포맷

반정형 데이터 셋(비정형 + 반정형)

  • JSON 파일 : JavaScript Object Notation의 줄임말로 자바스크립트 형식에 따라 데이터 객체나 변수를 표현하는데, 여러 프로그래밍 언어에서 자유롭게 호환 사용이 가능합니다.
  • XML 파일 : eXtensible Markup Language, 사람이 작성하고 이해하기가 쉬우며, 확장성이 뛰어납니다.

비정형 데이터 셋(행과 열이 없는 비정형)

  • 텍스트 파일 : 일반적인 문자, 숫자, 특수기호, 문장부호 등이 사용된 문자열
  • 이미지 파일 : 이미지 데이터 포멧
  • 멀티 미디어 파일 : 음파 파동을 높낮이를 가진 좌표 수치로 변환한 오디오파일, 이미지, 오디오 정보 종합
  • 전용 데이터 파일 : 0과 1로 이루어진 기계어로 인식 및 처리할 수 있는 파일 포맷

 


이 자료는 https://www.youtube.com/channel/UChPuesN49tcqQqYRQHrLCuw를 참조하여 작성하였습니다.

 

K-ICT 빅데이터센터

판교 K-ICT 빅데이터센터 공식 유튜브 채널입니다.

www.youtube.com

 

댓글