본문 바로가기
Data·AI/문제풀이

※ 주식 자료로 형변환 및 데이터 분석 이해하기

by hyun-am 2019. 4. 7.

먼저 주식데이터를 구하기 위해서 한국증권거래소 홈페이지를 들어간 후 주가정보 csv파일을 다운 받은후 데이터 분석을 시작 하였습니다. 

 

 

1-1. 필요한 라이브러리를 실행한후 엑셀데이터 파일을 로드 합니다.

 

 

1-2. 실행한 후 나오는 표의 모양은 

이것과 같습니다. 하지만 숫자에 쉼표 처리가 되어 있어서 데이터 분석때 char형으로 읽어서 오름차순이나 내림차순할때 오류를 범할 수 있습니다. 따라서 2번과 같은 명령어를 사용해서 해결하였습니다.

 

2-1. gsub함수를 이용해 ( "바꾸고싶은 문자", "대체 문자", 원하는 열 )과 as.numeric함수를 이용하여 쉼표를 삭제하고 정수형으로 데이터를 수정하였습니다.

  

2-2. 이러한 명령어를 실행한 후 나오는 결과 값은 

 

이런식으로 지수표현으로 나옵니다. 하지만 이런 지수표현을 원래 숫자 표현으로 바꾸는 방법이 있습니다. 그방법은 3번에서 확인할 수 있습니다.

 

3-1. 

이러한 명령어를 사용하면 아래 그림처럼 값이 변경 됩니다.

 

※ options("scipen" = -100) 명령어를 사용하면 다시 지수표현으로 변경 됩니다.

 

3-2. 

 

4-1. 이런식으로 이용하면 액면가를 구별한후 자본금 순으로 상위 10개를 구하는 명령어를 사용할 수 있습니다. 

 

4-2. 실행한 모습은 다음과 같습니다.

 

이런식으로 원하는 액면가를 filter로 걸러낸 후 arrange함수를 이용해서 자본금이 높은 기업을 찾을  수 있습니다.

 

5-1. 다음은 group_by 함수를 이용해 액면가별로 묶고 filter로 같은 업종 끼리 묶어서 자본금을 올림차순으로 출력하는 것을 만들겠습니다. 

 

5-2. 실행한 후 결과 값은 다음과 같습니다.

 

이런식으로 액면가로 그룹을 묶고 업종을 "소프트웨어 개발 및 공급업"으로하고 다양한 방법으로 데이터를 추출할 수 있습니다. 

댓글