본문 바로가기

데이터과학4

005. pandas 데이터 전처리하기 1. describe( )함수 먼저 이 함수는 R에서 summary함수와 비슷한 역할을 합니다. 결과 값은 아래와 값이 설명할 수 있습니다. count : 데이터의 개수 mean : 평균 값 std : 표준편차 min : 최솟값 25% : 4분위수(25%) 50% : 4분위수(50%) 75% : 4분위수(75%) max : 최댓값 df.describe() 실행을 위해 다음과 같은 명령어를 실행한 결과값은 아래와 같습니다. 2. info( )함수 다음 함수는 R에서 str함수와 비슷한 역할을 함수입니다. df_test.info() 이런 명령어를 실행하면 다음과 같은 결과를 출력합니다. 3. columns 데이터에 어떤 컬럼이 있는지 살필 수 있습니다. df_test.columns 출력 값은 다음과 같습니다.. 2019. 5. 1.
004. pandas를 이용하여 데이터 프레임 만들기 요번에 대학교 확률과 통계시간에서 교수님께서 와인에 관한 이야기를 하였습니다. 그래서 전에 저는 wine다양한 자료를 담고 있는 데이터를 한번 사용해본적 있어서 이것을 통해 데이터 프레임을 만들고 이것을 통해 데이터 프레임을 만들어 보겠습니다. 먼저 데이터 프레임을 만들기 전에 wine_dataset 파일을 판다스를 실행하는 곳에 위치하겠습니다. 그후 os 라이브러리를 이용해 데이터의 경로를 확인한 후 df_test라는 데이터 프레임을 만들겠습니다. import io import os 이렇게 io와 os라는 라이브러리를 불러온후 다음 명령어를 사용해 데이터가 저장된 위치의 경로를 확인합니다. os.listdir('파일명') 그러면 다음과 같은 결과를 확인할 수 있습니다. 그 후 이런식으로 csv_path.. 2019. 5. 1.
003. pandas series - 다양한 메서드들 먼저 pandas series에서 사용하는 다양한 연산 메서드를 알아보겠습니다. Series에서 바이너리 연산 메서드 Function 설명 add( ) Series에서 길이가 같은 객체 또는 Series를 더하는 데 사용되는 메서드 입니다. sub( ) Series에서 길이가 같은 객체 또는 Series를 빼는 데 사용되는 메서드 입니다. mul( ) Series에서 길이가 같은 객체 또는 Series를 곱하는 데 사용되는 메서드 입니다. div( ) Series에서 길이가 같은 객체 또는 Series를 나누는 데 사용되는 메서드 입니다. sum( ) Series에서 열의 값을 더한 후 반환합니다. prod( ) Series에서 열의 값을 곱한 후 반환합니다. mean( ) Series에서 열의 평균값을.. 2019. 4. 30.
002. pandas series-기초 1. Series 개요 Pandas에서 series 라는 것은 pandas의 1차원적인 데이터 타입을 말합니다. 또한 모든 유형(정수, 문자열, 부동 소수점, 파이썬 객체 등)의 데이터를 보유할 수 있습니다. 2. Series 만들기 간단한 series를 만드는 예제입니다. series = pd.Series([1,3,5,np.nan,7,9]) series 출력은 다음과 같습니다. 3. Pandas에서 slice 기능은 R에서 filter과 비슷한 기능을 합니다. series[series>3.0] 출력은 다음과 같습니다. 4. 또한 series를 이용하여 바이너리 연산을 수행할 수 있습니다. data1 = pd.Series([11,13,21,17,23], index = ['a','b','c','d','e'.. 2019. 4. 30.