Data·AI61 Numpy 시작하기 개념 먼저 Numpy란 "Numerical Python" 의 줄임말로 대규모 다차원 배열과 행렬 연산에 필요한 다양한 함수를 제공해줍니다. 특징 강력한 N 차원 어레이 빠르고 다양한 Numpy 벡터화, 인덱싱 및 브로드 캐스트 개념은 오늘날 어레이 컴퓨팅의 사실상 표준입니다. 수치 컴퓨팅 도구 Numpy 포괄적인 수학 함수, 난수 생성기, 선형 대수 루틴, 퓨리에 변환 등을 제공합니다. 상호 운용 Numpy는 광범위한 하드웨어 및 컴퓨팅 플랫폼을 지원하며 분산, GPU 및 희소 배열 라이브러리와 잘 작동합니다. 수행자 Numpy의 핵심은 최적화 된 C 코드입니다. 컴파일된 코드 속도로 Python을 유연하게 해줍니다. 사용하기가 쉽다 Numpy의 고급 구문은 모든 배경 또는 경험 수준의 프로그래머가 액세.. 2020. 7. 30. 데이터 분석가가 되기위한 역량, 기술 데이터 분석가에게 필요한 기술 1. EDA 먼저 기본적으로 데이터 분석가에게 필요한 기술은 EDA를 알아야합니다. EDA란 탐색적 자료분석이라는 뜻으로 (Exploratory Data Analysis)의 줄임말 입니다. EDA는 6가지의 의사 결정 단계가 있는데 데이터 가지고오기 데이터 모양 확인하기 데이터 타입 확인하기 데이터 기초 분석 데이터 클린징 데이터 시각화 로 되어 있으며 이것을 통합해서 의사 결정을 할 수 있습니다. 2. 데이터에 대한 이해 먼저 데이터에 대한 이해가 필요하므로 RDBMS에서 사용하는 SQL에 대한 이해가 필요하고 Mongo DB와 같은 No SQL을 사용하는 데이터베이스를 위한 JSON에 대한 지식도 필요합니다. 이것은 EDA에서 2번(데이터 모양 확인하기)와 3번(데이터 .. 2020. 2. 6. Modern BI 제품 5가지 Modern BI top 5 제품 1. Tableau Tableau의 특징 사용자가 직접 빅데이터, 클라우드를 아우르는 모든 데이터를 연결, 분석함으로써 실질적인 Self-Service Data Analysis가 가능합니다. ※ 다양한 데이터 소스(Databases, Big Data, Spreadsheets, Application Data, Cloud)와 연결이 가능합니다. Tableau의 장점 직관적이고 사용하기 쉬운 인터페이스는 사용자들이 빠르고 간편하게 데이터를 분석할 수 있도록 도와줄 수 있습니다. 지관적인 드래그&드랍 인터페이스 쉬운 데이터 매쉬업 필터 사용의 용이함 신속한 데이터 전환 100MM / 1초 Tableau의 단점 Tableu Public을 통해 분석 및 시각화를 하게 되면, 원본 .. 2020. 2. 4. 통계 분석 기법을 이용하기 위한 가설 검정 먼저 통계적 가설 검정을 하기전에 통계 분석 절차를 설명하겠습니다. 통계 분석 절차 1. 분석 방법 선정 2. 분석하고자 하는 목적에 따른 귀무가설(영가설)과 대립가설 설정 3. 분석도구(SPSS,R등) 검정 통계량 실행 및 확인 4. 유의수준(a) 결정 : 0.1, 0.05, 0.01 5. 유의확률(P) 확인 6. 유의확률과 유의수준 비교 ( 2019. 5. 28. 009.한국인의 삶을 파악하라! (종교 유무에 따른 이혼율, 지역별 연령대 비율) 1. 종교 유무에 따른 이혼율 종교 변수 검토 및 전처리하기 먼저 종교 변수를 전처리 하면 (종교를 가졌다면 1, 없으면 2, 무응답 9) 다음과 같은 값을 얻습니다. 결혼여부 변수 검토 및 전처리하기 먼저 marriage 변수에서 파생 변수를 만들겠습니다. (0 : 비해당, 1: 유배우, 2: 사별, 3: 이혼, 4: 별거, 5: 미혼, 6: 기타) 다음은 종교 유무에 따른 이혼율을 분석하기 먼저 종교 유무에 따른 이혼율 표를 만들겠습니다. 다음은 연령대 및 종교 유무에 따른 이혼율을 분석하겠습니다. 먼저 연령대별 이혼율 표를 만들겠습니다. 이것을 그래프로 만들면 아래와 같습니다. 앞에서 만든 표에서 초년생들은 이혼과 결혼은 매우 적어서 제외 시켰습니다. 다음은 연령대 및 종교 유무에 따른 이혼율 표를.. 2019. 5. 25. 008.한국인의 삶을 파악하라! (직업별 월급차이, 성별 직업 빈도) 1. 직업별 월급차이(어떤 직업이 월급을 가장 많이 받을까?) 먼저 깃허브(bit.ly/doit_rc)에서 Koweps_Codebook.xlsx를 다운로드해 readxl( )로 불러오겠습니다. 그 후 left_join을 이용해 job 변수를 welfare에 결합합니다. code_job을 기준으로 join했습니다. 아래와 같은 명령어를 실행해 잘 결합됐는지 확인하겠습니다. 이제 직업별 월급 차이를 분석하겠습니다. 먼저 직업별 월급 평균표를 만들겠습니다. 직업이 없거나 월급이 없으면 조사 대상이 아니므로 is.na( )를 통해 제외시키겠습니다. 어떤 직업이 월급을 많이 받는지 알아보기 위해 월급을 내림차순으로 정렬하고 상위 10개를 출력합니다. 그 후 그래프를 만드는데 coord_flip( )를 이용해 x축.. 2019. 5. 25. 이전 1 2 3 4 5 6 7 8 ··· 11 다음