먼저 주식데이터를 구하기 위해서 한국증권거래소 홈페이지를 들어간 후 주가정보 csv파일을 다운 받은후 데이터 분석을 시작 하였습니다.
1-1. 필요한 라이브러리를 실행한후 엑셀데이터 파일을 로드 합니다.
1-2. 실행한 후 나오는 표의 모양은
이것과 같습니다. 하지만 숫자에 쉼표 처리가 되어 있어서 데이터 분석때 char형으로 읽어서 오름차순이나 내림차순할때 오류를 범할 수 있습니다. 따라서 2번과 같은 명령어를 사용해서 해결하였습니다.
2-1. gsub함수를 이용해 ( "바꾸고싶은 문자", "대체 문자", 원하는 열 )과 as.numeric함수를 이용하여 쉼표를 삭제하고 정수형으로 데이터를 수정하였습니다.
2-2. 이러한 명령어를 실행한 후 나오는 결과 값은
이런식으로 지수표현으로 나옵니다. 하지만 이런 지수표현을 원래 숫자 표현으로 바꾸는 방법이 있습니다. 그방법은 3번에서 확인할 수 있습니다.
3-1.
이러한 명령어를 사용하면 아래 그림처럼 값이 변경 됩니다.
※ options("scipen" = -100) 명령어를 사용하면 다시 지수표현으로 변경 됩니다.
3-2.
4-1. 이런식으로 이용하면 액면가를 구별한후 자본금 순으로 상위 10개를 구하는 명령어를 사용할 수 있습니다.
4-2. 실행한 모습은 다음과 같습니다.
이런식으로 원하는 액면가를 filter로 걸러낸 후 arrange함수를 이용해서 자본금이 높은 기업을 찾을 수 있습니다.
5-1. 다음은 group_by 함수를 이용해 액면가별로 묶고 filter로 같은 업종 끼리 묶어서 자본금을 올림차순으로 출력하는 것을 만들겠습니다.
5-2. 실행한 후 결과 값은 다음과 같습니다.
이런식으로 액면가로 그룹을 묶고 업종을 "소프트웨어 개발 및 공급업"으로하고 다양한 방법으로 데이터를 추출할 수 있습니다.
'Data·AI > 문제풀이' 카테고리의 다른 글
※ mpg데이터를 이용해 분석 문제를 해결해 보기 (0) | 2019.04.09 |
---|---|
※ 결측치가 들어 있는 mpg 데이터를 이용해 분석문제 해결하기 (0) | 2019.04.09 |
※ 데이터 가공하기 입문(제주 키워드 데이터) (0) | 2019.04.06 |
※분석 도전 ! p.123 풀기 (0) | 2019.04.01 |
댓글