본문 바로가기

데이터분석34

007.한국인의 삶을 파악하라! (나이-월급, 연령대-월급, 연령대 및 성별 월급 차이) 1. 나이 - 월급 (몇 살 때 월급을 가장 많이 받을까?) 먼저 나이라는 파생변수를 새로 만들겠습니다. summary( )와 qplot( )를 이용하여 age의 값을 분석하겠습니다. 그 후 나이와 월급의 관계를 분석하기 위해 나이에 따른 월급 평균표를 만들겠습니다. 실행 시키면 아래와 같은 값이 나옵니다. 이렇게 만든 평균표를 이제 그래프로 만들겠습니다. 그래프를 보면 20대 초반에는 100만원 초반대 월급을 받고 40~50대 무렵 300만원대 월급을 받고 60대 이후에는 20대보다 월급을 적게 받는 다는 것을 알 수 있습니다. 2. 연령대 - 월급 (어떤 연령대의 월급이 가장 많을까?) 먼저 연령대를 만들기위해 초년(30세 미만), 중년(30~59세), 노년(60세 이상)을 만들겠습니다. 그 후 연령.. 2019. 5. 25.
006.한국인의 삶을 파악하라! (분석 준비하기, 성별에 따른 월급 차이) 1. 데이터 분석 준비하기 먼저 데이터는 깃허브(bit.ly/doit_rb)에서 Koweps_hpc10_2015_beta1.sav 파일로 존재하고 있습니다. 여기서 foreign 패키지는 SPSS, SAS, STATA 등 다양한 통계분석 소프트웨어의 파일을 불러올 수 있습니다. 그 후 read.spss( )를 이용해 복지패널데이터를 불러옵니다. 다음으로 데이터를 불러왔으니 데이터의 구조를 파악하는 head( ), tail( ), View( ), dim( ), str( ), summary( ), descr( )를 활용하겠습니다. 여기서 저는 summary( )와 descr( )을 사용했습니다. 이런식으로 최솟값, 최댓값, 1분위값, 중간값, 3분위값 등이 출력되는 것을 볼 수 있습니다. 그 후 간단한 사용.. 2019. 5. 25.
007. sum( ), prod( ), mean( ) 파악하기 먼저 메서드를 실행시키기 위해 데이터를 두개 작성한 후 combine_first를 이용하여 데이터 프레임을 합치겠습니다. test_01 = [[2.3, np.nan], [4.0, 1.5], [np.nan, 11.2], [-0.5, -3.0], [.3, 14]] df_test_01 = pd.DataFrame(test_01, columns = ["data1","data2"], index = ["a","b","c","d","e"]) test_02 = [[1.2, np.nan], [3.4, 6.6], [np.nan, -3.2], [1.2, 3.0], [1.3, -3.4]] df_test_02 = pd.DataFrame(test_02, columns = ["data3","data4"], index = ["a",".. 2019. 5. 2.
006. add( ), sub( ), mul( ), div( ) 메서드 파악하기 먼저 시작하기 앞서 두개의 데이터 프레임을 만들겠습니다. test_01 = [[2.3, np.nan], [4.0, 1.5], [np.nan, 11.2], [-0.5, -3.0], [.3, 14]] df_test_01 = pd.DataFrame(test_01, columns = ["first","second"], index = ["a","b","c","d","e"]) test_02 = [[1.2, np.nan], [3.4, 6.6], [np.nan, -3.2], [1.2, 3.0], [1.3, -3.4]] df_test_02 = pd.DataFrame(test_02, columns = ["first","second"], index = ["a","b","c","d","e"]) 다음과 같은 두개의 데이터 프레.. 2019. 5. 1.
005. pandas 데이터 전처리하기 1. describe( )함수 먼저 이 함수는 R에서 summary함수와 비슷한 역할을 합니다. 결과 값은 아래와 값이 설명할 수 있습니다. count : 데이터의 개수 mean : 평균 값 std : 표준편차 min : 최솟값 25% : 4분위수(25%) 50% : 4분위수(50%) 75% : 4분위수(75%) max : 최댓값 df.describe() 실행을 위해 다음과 같은 명령어를 실행한 결과값은 아래와 같습니다. 2. info( )함수 다음 함수는 R에서 str함수와 비슷한 역할을 함수입니다. df_test.info() 이런 명령어를 실행하면 다음과 같은 결과를 출력합니다. 3. columns 데이터에 어떤 컬럼이 있는지 살필 수 있습니다. df_test.columns 출력 값은 다음과 같습니다.. 2019. 5. 1.
004. pandas를 이용하여 데이터 프레임 만들기 요번에 대학교 확률과 통계시간에서 교수님께서 와인에 관한 이야기를 하였습니다. 그래서 전에 저는 wine다양한 자료를 담고 있는 데이터를 한번 사용해본적 있어서 이것을 통해 데이터 프레임을 만들고 이것을 통해 데이터 프레임을 만들어 보겠습니다. 먼저 데이터 프레임을 만들기 전에 wine_dataset 파일을 판다스를 실행하는 곳에 위치하겠습니다. 그후 os 라이브러리를 이용해 데이터의 경로를 확인한 후 df_test라는 데이터 프레임을 만들겠습니다. import io import os 이렇게 io와 os라는 라이브러리를 불러온후 다음 명령어를 사용해 데이터가 저장된 위치의 경로를 확인합니다. os.listdir('파일명') 그러면 다음과 같은 결과를 확인할 수 있습니다. 그 후 이런식으로 csv_path.. 2019. 5. 1.