본문 바로가기

전체 글232

데이터 모델링 및 데이터 탐색 모델링이란 문제해결에 관련된 변수를 선별하여 변수간 관계를 구조화된 그림(모형•모델)으로 형상화(모델링, 모형화)하는 작업이며, 문제 해결 과정및 목표, 자료 수집 가공및 처리를 위한 변수들로 구성됩니다. 데이터 분석 모델링(모형화) 문제 해결 과정 및 목표 변수 성과, 반응, 결과, 종속 변수 : 분석을 하는 궁극적인 이유와 목표에 해당하는 변수로서 적정 기준보다 높거나 낮아서 문제가 발생 영향, 투입, 예측, 설명, 독립 변수 : 종속변수의 상태를 적정 기준보다 높거나 낮게 만들어 문제상황을 발생시키는 원인이 되는 변수 조절, 상황, 교란, 혼동 변수 : 독립변수와 종속변수 간의 관계를 특정한 조건일 때 관계의 강도나 방향을 변화시키는 변수 매개 변수 : 독립변수와 종속변수 간에 직접적인 관계 사이에.. 2020. 8. 17.
다양한 공공데이터 포털 국내 공공데이터 포털 정부부처 및 각급기관에서 발생하는 다양한 공공데이터를 통합해서 제공하는 공공부분 데이터포탈에서 주제별 및 형식 별 필요 데이터를 무료로 다운받을 수 있습니다. 공공데이터포털(www.data.go.kr) 공공기관이 생성 또는 취득하여 관리하고 있는 공공데이터를 한 곳에서 검색 및 다운로드 받는 통합 창구 사이트 입니다. 공공데이터 포털 국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Datase www.data.go.kr 서울 열린데이터 광장(data.seoul.go.kr) 서울시민의 생활과 밀접한 교통, 문화, 공간 등 사회∙경제적 사용가치가 높은 서.. 2020. 8. 12.
다양한 데이터셋 파일유형 데이터셋 이란 데이터셋은 행과 열이라는 구조를 가지고 있는지, 사람과 분석도구가 처리하기 용이한지에 따라 정형, 반정형, 비정형 데이터셋으로 구별할 수 있으며, (R과 파이썬 등 다양한 분석도구)는 다양한 유형의 데이터셋 파일 포맷을 다룰 수 있습니다. 정형 데이터 셋(사람들이 이해하기 좋은 형태) 플레인 텍스트 파일 : 간단한 메모장 파일 형식으로 특별한 전용 프로그램 없이 쉽게 오픈 할 수 있습니다. 엑셀 파일 : 엑셀의 시트 단위로 다양한 주제의 개별 데이터셋을 저장해 놓고, 필요한 시트를 로딩해서 사용 상용 분석 SW파일 : SPSS, SPSS, State등 상용 분석 SW에서 다루는 전용 데이터셋 파일 DB 파일 : 오라클, MySQL 등 데이터베이스 관리 SW에서 사용하는 파일 포맷 반정형 데.. 2020. 8. 12.
코테를 위한 isㅇㅇㅇ 메소드 코테를 위한 Python isㅇㅇㅇ메소드 파이썬 isㅇㅇㅇ메소드 파이썬 isㅇㅇㅇ 메소드는 해당 item이 문자열, 숫자, 소문자, 제목등 다양한 값들이 맞는지 True, Flase를 반환해주는 메소드 입니다. 다음 나오는 메소드들은 전부 코딩 테스트를 볼때 알면 좋은 메소드입니다. isalnum( ) isalnum( )은 문자와 숫자의 문자열을 탐지하는 메소드 입니다. 사용 예시는 다음과 같습니다. s = "helhleo123" if s.isalnum(): print("참") else: print("거짓") ### 출력 값 # 참 isalpha( ) isalpha( )는 오직 문자인지 확인하는 메소드 입니다. s = "helhleo123" if s.isalpha(): print("참") else: pr.. 2020. 8. 10.
Python list 연산에 따른 시간 복잡도 python list 연산에 따른 시간 복잡도 시간 복잡도가 O(1)인 연산 len(a) len(a)는 리스트 전체 요소의 개수를 리턴합니다. 사용 예시는 다음과 같습니다. a = [1,2,3,4,5] print(len(a)) ## 출력값 # 5 a[i] a[i]는 리스트중에서 해당 인덱스에 해당하는 값을 가져옵니다. a = [1,2,3,4,5] print(a[3]) ## 출력 값 # 4 a.append(x) a.append(x)는 해당 리스트 맨뒤에 x를 추가해 줍니다. a = [1,2,3] print(a) a.append(4) print(a) ## 출력 값 # [1,2,3] # [1,2,3,4] a.pop() a.pop()는 해당 리스트 맨 뒤에 있는 값을 pop 해줍니다. (스택의 연산 pop) a.. 2020. 8. 9.
분할정복 분할 정복 분할 정복이란 커다란 문제를 작은 부분 부분으로 나누어서 해결하는 방법입니다. 분할 정복의 전략은 재귀적 알고리즘을 사용하여 해결할 수 있습니다. 먼저 분할 정복을 하기 위해서는 두 가지 단계를 거칩니다. 기본 단계를 해결합니다. 이 부분은 가능한 한 간단한 문제여야 합니다. 문제가 기본 단계가 될 때까지 나누거나 작게 만들어야 합니다. 이것을 프로그래밍으로 표현하자면 다음과 같이 표현할 수 있습니다. function F(x): if F(x)가 간단 then: return F(x)를 계산한 값 else: x 를 x1, x2로 분할 F(x1)과 F(x2)를 호출 return F(x1), F(x2)로 F(x)를 구한 값 분할 정복 예시 코드 분할 정복 간단코드 (더하기) 분할 정복을 쉽게 이해하기.. 2020. 8. 6.
numpy함수(생성) 생성함수 array 생성하기 다음은 numpy에서 array함수를 이용해서 배열을 만들겠습니다. 1차원 배열과 2차원 배열은 다음과 같이 생성할 수 있습니다. lst_1d = np.array([1,2,3,4]) print(lst_1d) # 출력 값 # [1 2 3 4] lst_2d = np.array([[1,2,3],[4,5,6]]) print(lst_2d) # 출력 값 # [[1 2 3] # [4 5 6]] 배열의 모양을 확인하는 shape함수 다음은 numpy 배열을 확인하는 shape 함수입니다. 사용은 다음과 같이합니다. print(lst_1d.shape) print(lst_2d.shape) # 출력 값 # (4,) # (2, 3) 파이썬에는 range Numpy에는 arange 다음은 파이썬에서.. 2020. 7. 30.
Numpy 시작하기 개념 먼저 Numpy란 "Numerical Python" 의 줄임말로 대규모 다차원 배열과 행렬 연산에 필요한 다양한 함수를 제공해줍니다. 특징 강력한 N 차원 어레이 빠르고 다양한 Numpy 벡터화, 인덱싱 및 브로드 캐스트 개념은 오늘날 어레이 컴퓨팅의 사실상 표준입니다. 수치 컴퓨팅 도구 Numpy 포괄적인 수학 함수, 난수 생성기, 선형 대수 루틴, 퓨리에 변환 등을 제공합니다. 상호 운용 Numpy는 광범위한 하드웨어 및 컴퓨팅 플랫폼을 지원하며 분산, GPU 및 희소 배열 라이브러리와 잘 작동합니다. 수행자 Numpy의 핵심은 최적화 된 C 코드입니다. 컴파일된 코드 속도로 Python을 유연하게 해줍니다. 사용하기가 쉽다 Numpy의 고급 구문은 모든 배경 또는 경험 수준의 프로그래머가 액세.. 2020. 7. 30.
파이썬 itertools에서 Combinatoric iterators사용하기 itertools 에서 Combinatoric iterators 이번에는 조합 및 순열 문제를 쉽게 풀기 위한 itertools에서 Combinatoric iterators에 대해 알아 보겠습니다. 먼저 itertools란 PAL, Haskell 및 SML의 구성에서 영감을 얻은 여러가지 number of iterator building blocks를 구현합니다. 각각은 파이썬에서 적합한 형태로 개편되었습니다. 이 모듈을 자체적으로 또는 조합하여 유용한 빠르고 메모리 효율적인 도구의 핵심 세트를 표준화 합니다. 이들은 함께 "iterator algebra"를 형성하여 순수 Python에서 간결하고 효율적으로 특수 도구를 구성할 수 있습니다. 저는 여기에서 순열과 조합을 지원하는 Combinatoric i.. 2020. 7. 26.