본문 바로가기
Data·AI/Pandas

005. pandas 데이터 전처리하기

by hyun-am 2019. 5. 1.

1. describe( )함수 

 

먼저 이 함수는 R에서 summary함수와 비슷한 역할을 합니다. 

 

결과 값은 아래와 값이 설명할 수 있습니다. 

  • count : 데이터의 개수
  • mean : 평균 값
  • std : 표준편차
  • min : 최솟값
  • 25% : 4분위수(25%)
  • 50% : 4분위수(50%)
  • 75% : 4분위수(75%)
  • max : 최댓값
df.describe()

 

실행을 위해 다음과 같은 명령어를 실행한 결과값은 아래와 같습니다. 

 

 

2. info( )함수 

 

다음 함수는 R에서 str함수와 비슷한 역할을 함수입니다. 

 

df_test.info()

 

이런 명령어를 실행하면 다음과 같은 결과를 출력합니다.

 

 

3. columns 

 

데이터에 어떤 컬럼이 있는지 살필 수 있습니다. 

 

df_test.columns

 

출력 값은 다음과 같습니다. 

 

 

※ columns 함수는 ['시작' : '끝'] 을 이용해 슬라이싱 하여 원하는 갯수의 컬럼 개수를 출력할 수 있습니다. 

 

예를들어 2번째에 위치한 컬럼 부터 5번째 위치한 컬럼을 출력하는 명령어를 작성하겠습니다. 

 

df_test.columns[1:6]

 

여기서 시작을 1로 적은 이유는 배열은 0부터 시작하기 때문이고 끝에 6을 작성한 이유는 인덱스가 1부터 6미만인 값을 출력하기 때문입니다. 출력은 다음과 같이 나옵니다.

 

 

4. unique( ) 함수

 

이것은 series에서는 특정 중복 값을 제거하는 역할을 하고 DF에서는 특정 컬럼에서 unique한 값을 추출하는 역할을 합니다.

 

df_test['특정컬럼'].unique()

 

저는 df_test에서 alcohol을 출력하기 위해 특정 컬럼에 alcohol을 넣겠습니다. 

 

출력은 다음과 같습니다.

 

 

5. Transformation함수

 

이것은 DF에서 행과 열을 바꿔주는 역할을 합니다.

 

명령어는 다음과 같이 사용할 수 있습니다.

 

df_test.T

 

출력값은 다음과 같습니다.

 

 

6. 기타 함수

 

또한 데이터프레임의 인덱스 값을 확인하게 하는 index함수와 데이터프레임의 값들을 배열로 리턴해주는 values 함수가 있습니다. 

 

 

 

※ 이 자료는 다음 책을 참고하여 작성하였습니다. 

 


https://ridibooks.com/v2/Detail?id=2773000022

 

 

인공지능을 활용한 업무자동화 With Google Developers Group JEJU

이 책은 반복적이고 지루한 단순 업무를 Python을 이용하여 자동화 시키려 하는 업무 담당자와 데이터를 가공하여 가시화 시키기 원하는 업무 담당자에게 추천해드립니다. 또한 부서의 업무 고도화, 효율화를 위해 적절한 자동화 프로그램을 찾지 못한 기업과 학문적 호기심을 가진 개인에게도 추천해 드립니다. 세계에서 유행중인 Python은 타 언어에 비해 다루기 ...

ridibooks.com

 

댓글