본문 바로가기

수업정리2

※ mpg데이터를 이용해 분석 문제를 해결해 보기 1. 먼저 데이터를 불러와 일부러 이상치를 만듭니다. 이런식으로 drv(작동방식)에 이상값인 "k"를 넣고 cty(도시연비)에도 이상치를 집어 넣었습니다. 2. 먼저 이상치를 발견하기위해 table을 이용하여 데이터를 분석하였습니다. 결과 값은 아래와 같습니다. drv는 한눈에봐도 무엇이 이상치인지 파악이 쉽지만 cty는 어느 값이 이상치인지 확인하기가 어렵습니다. 따라서 cty는 boxplot을 이용하여 이상치를 파악했습니다. 3. boxplot을 이용하여 cty의 이상치 파악하기 boxplot을 이용하여 시각화 하고 $stats를 이용하여 인덱스 값을 파악합니다. 경계값은 이런 값이 나옵니다. 따라서 9보다 작거나 26보다 크면 극단치를 넘어서서 이상치라고 생각할 수도 있습니다. Q1 문제를 해결하려.. 2019. 4. 9.
※ 주식 자료로 형변환 및 데이터 분석 이해하기 먼저 주식데이터를 구하기 위해서 한국증권거래소 홈페이지를 들어간 후 주가정보 csv파일을 다운 받은후 데이터 분석을 시작 하였습니다. 1-1. 필요한 라이브러리를 실행한후 엑셀데이터 파일을 로드 합니다. 1-2. 실행한 후 나오는 표의 모양은 이것과 같습니다. 하지만 숫자에 쉼표 처리가 되어 있어서 데이터 분석때 char형으로 읽어서 오름차순이나 내림차순할때 오류를 범할 수 있습니다. 따라서 2번과 같은 명령어를 사용해서 해결하였습니다. 2-1. gsub함수를 이용해 ( "바꾸고싶은 문자", "대체 문자", 원하는 열 )과 as.numeric함수를 이용하여 쉼표를 삭제하고 정수형으로 데이터를 수정하였습니다. 2-2. 이러한 명령어를 실행한 후 나오는 결과 값은 이런식으로 지수표현으로 나옵니다. 하지만 이.. 2019. 4. 7.