본문 바로가기

Data·AI/문제풀이5

※ mpg데이터를 이용해 분석 문제를 해결해 보기 1. 먼저 데이터를 불러와 일부러 이상치를 만듭니다. 이런식으로 drv(작동방식)에 이상값인 "k"를 넣고 cty(도시연비)에도 이상치를 집어 넣었습니다. 2. 먼저 이상치를 발견하기위해 table을 이용하여 데이터를 분석하였습니다. 결과 값은 아래와 같습니다. drv는 한눈에봐도 무엇이 이상치인지 파악이 쉽지만 cty는 어느 값이 이상치인지 확인하기가 어렵습니다. 따라서 cty는 boxplot을 이용하여 이상치를 파악했습니다. 3. boxplot을 이용하여 cty의 이상치 파악하기 boxplot을 이용하여 시각화 하고 $stats를 이용하여 인덱스 값을 파악합니다. 경계값은 이런 값이 나옵니다. 따라서 9보다 작거나 26보다 크면 극단치를 넘어서서 이상치라고 생각할 수도 있습니다. Q1 문제를 해결하려.. 2019. 4. 9.
※ 결측치가 들어 있는 mpg 데이터를 이용해 분석문제 해결하기 1-1. drv 변수와 hwy 변수에 결측치가 몇개 있는지 확인하기 이런 명령어를 실행하면 값은 아래와 같습니다. 1-2. mpg데이터에서 hwy에 결측치가 5개 있다는 것을 확인 할 수 있습니다. 2-1. filter( )를 이용해 hwy 변수의 결측지를 제외하고, 어떤 구동 방식의 hwy 평균이 높은지 알아보세요. 명령어는 아래와 같습니다. 실행을 하면 아래와 같이 나옵니다. 2-2. ※ 비슷한 방법으로 filter( )을 쓰지 않고 rm.na를 활용하여 같은 값을 출력 할 수 있습니다. 이런식으로 출력이 됩니다. 2019. 4. 9.
※ 주식 자료로 형변환 및 데이터 분석 이해하기 먼저 주식데이터를 구하기 위해서 한국증권거래소 홈페이지를 들어간 후 주가정보 csv파일을 다운 받은후 데이터 분석을 시작 하였습니다. 1-1. 필요한 라이브러리를 실행한후 엑셀데이터 파일을 로드 합니다. 1-2. 실행한 후 나오는 표의 모양은 이것과 같습니다. 하지만 숫자에 쉼표 처리가 되어 있어서 데이터 분석때 char형으로 읽어서 오름차순이나 내림차순할때 오류를 범할 수 있습니다. 따라서 2번과 같은 명령어를 사용해서 해결하였습니다. 2-1. gsub함수를 이용해 ( "바꾸고싶은 문자", "대체 문자", 원하는 열 )과 as.numeric함수를 이용하여 쉼표를 삭제하고 정수형으로 데이터를 수정하였습니다. 2-2. 이러한 명령어를 실행한 후 나오는 결과 값은 이런식으로 지수표현으로 나옵니다. 하지만 이.. 2019. 4. 7.
※ 데이터 가공하기 입문(제주 키워드 데이터) 자유자재로 데이터 가공하기에서 명령어를 배우고 나서 데이터 분석에 재미가 생겨서 주변 데이터 자료를 찾아 분석하는 시간을 가져 보았습니다. 데이터 자료는 네이버 키워드 검색 자료를 이용하였습니다. https://github.com/HyunAm0225/Rstudy 를 들어가면 데이터를 확인할 수 있습니다. 1. 먼저 excel 파일을 읽기 위해 readxl 패키지를 install 하고 library로 불러왔습니다. 2. View를 통해 keyword의 데이터 프레임을 보면 아래처럼 출력이 됩니다. ※먼저 변수와 상수를 정리하자면 연관키워드, 월간검색수(PC), 월간검색수(모바일), 월평균클릭수(PC), 월평균클릭수(모바일) 월평균클릭률(PC), 월평균클릭률(모바일), 경쟁정도, 월평균노출광고수 입니다. 연.. 2019. 4. 6.
※분석 도전 ! p.123 풀기 ggplot2 패키지에는 미국 동북중부 437개 지역의 인구통계 정보를 담은 midwest라는 데이터가 들어있습니다. midwest 데이터를 사용해 데이터 분석 문제를 해결하십시오. 1. 먼저 1번 박스에 보이는것 처럼 저는 library를 이용하여 ggplot2와 dplyr을 로드하였습니다. 왜냐하면 ggplot2와 dplyr을 써야 qplot이나 hist를 사용해 그래프를 볼 수 있고, 데이터를 조작할 수 있기 때문입니다. 2. 그리고 저는 2번 박스처럼 midwest를 ggplot2에서 가져와서 df_asia라는 복사본을 생성하였습니다. 왜냐하면 원본 데이터는 소중하기 때문입니다. 3. 그리고 3번 박스에서 보는 것 처럼 rename을 이용하여 df_asia에 있는 변수명을 수정하고 그것을 가지고 .. 2019. 4. 1.