본문 바로가기

전체 글232

파이썬 - 데코레이터 데코레이터(Decorator)란? 파이썬 데코레이터란 호출 가능 객체(함수, 메서드, 클래스)를 영구적으로 수정하지 않고도 그 동작을 확장, 수정할 수 있게 합니다. 데코레이터를 사용하는 예시는 아래와 같스빈다. 로그 남기기 접근 제어와 인증 시행 계측 및 시간 측정 비율 제한 캐싱 및 기타 데코레이터를 사용하는 이유 파이썬 데코레이터를 사용하는 이유는 예를 들면 비즈니스 로직이나 인증이 담긴 함수가 있는데 이제 50개 정도 함수에 이것 로직을 넣으려고 하면 굳이 일일이 넣을 필요 없이 데코레이터를 이용하면 깔끔하고 간단하게 처리할 수 있습니다. 데코레이터 기초 실습 먼저 기본적인 데코레이터는 호출 가능 객체를 입력받아 다른 호출 가능 객체를 반환하는 호출 가능한 객체입니다. 먼저 아래와 같은 코드는 가.. 2020. 9. 14.
파이썬 정규표현식 정규표현식 정규 표현식이란 특정한 규칙을 가진 문자열의 집합을 표현하는 데 사용하는 형식 언어이다. 정규 표현식은 많은 텍스트 편집기와 프로그래밍 언어에서 문자열의 검색과 치환을 위해 지원하고 있으며, 특히 펄과 Tcl은 언어 자체에 강력한 정규 표현식을 구현하고 있다. 컴퓨터 과학의 정규 언어로부터 유래하였으나 구현체에 따라서 정규 언어보다 더 넓은 언어를 표현할 수 있는 경우도 있으며, 심지어 정규 표현식 자체의 문법도 여러 가지 존재하고 있다. 현재 많은 프로그래밍 언어, 텍스트 처리 프로그램, 고급 텍스트 편집기 등이 정규 표현식 기능을 제공한다. 출처 : https://ko.wikipedia.org/wiki/정규_표현식 정규 표현식 예시 먼저 아래와 같은 조건을 이용하여 정규표현식을 생성하겠습니.. 2020. 9. 8.
DOM 구조 트리 이동 DOM 구조 트리 이동 먼저 다음과 같은 홈페이지(http://www.pythonscraping.com/pages/page3.html)는 아래와 같은 HTML 트리 구조로 나타낼 수 있습니다. html body div.wrapper h1 div.content table#giftList tr th th th th tr.gift#gift1 td td span.excitingNote td td Img 많은 테이블 행들 div.footer 자식과 자손 먼저 tr 태그는 table태그의 자식이며 tr과 th, td, img, span모두 table 태그의 자손입니다. 자식은 부모보다 한태그 아래있고 자손은 조상보다 몇 단계든 아래에 있을 수 있습니다. 또한 모든 자식은 자손이 될 수 있지만, 모든 자손은 자식이 .. 2020. 9. 8.
find( ), findAll( ) find() 와 findAll() findAll(tag, attributes, recursive, text, limit, keyword) tag, attributes .findAll("태그명", "dict형식의 속성") recursive recursive가 True이면 findAll 함수는 매개변수에 일치하는 태그를 찾아 자식, 자식의 자식까지 검색합니다. recursive가 False이면 findAll 함수는 문서의 최상위 태그만 찾습니다. 기본값은 recursive가 True입니다. text text는 태그의 속성이 아니라 텍스트 콘텐츠가 일치하는 값을 찾습니다. 예를 들면 예시 페이지에서 text가 "the prince"라는 단어가 몇번 나왔는지 확인하려면 nameList = bsObj.findAl.. 2020. 9. 8.
R. 범주형 변수간 특성요약과 시각화 범주형 변수간 분석방향성 분석대상 객체의 속성을 항목을 구별하는 방식으로 데이터를 수집 및 분석하는 범주형 변수 간에는 빈도와 비율을 활용한 교차 빈도•비율•백분율 분석을 활용해 다차원 적으로 여러 범주변수 간의 관련성(연관성)을 파악할 수 있습니다. R로 실습해보기 범주형 변수컬럼 서브데이터셋 추출 전체 데이터셋 변수 컬럼 중에서 항목을 구별해주는 역할을 하는 이항•다항 명목척도, 서열•순서척도로 측정된 범주형 변수 컬럼 서브데이터셋을 별도로 추출합니다.코드 진행은 앞에서 했던 것들과 같습니다. 1. 데이터 로드하기 2. 범주형 변수 컬럼명 확인하기 3. 범주형 변수컬럼 데이터셋 추출하기 범주형 변수간 특성 분석하기 범주형 변수인 성별(gender) 변수와 연령대(age) 변수간 관련성을 파악하기 위하.. 2020. 9. 2.
머신러닝 개요 머신러닝 기본 개념 데이터로 부터 학습하도록 컴퓨터를 프로그래밍을 하는 분야입니다. 또한 명시적인 프로그래밍 없이 컴퓨터가 스스로 학습하는 능력을 부여하는 것입니다. 과거 경험에서 학습을 통해 얻은 지식을 미래의 결정에 이용하는 컴퓨터 과학의 한 분야입니다. 관측된 패턴을 일반화하거나 주어진 샘플을 통해 새로운 규칙을 생성하는 목표를 가집니다. 머신러닝이 적용된 예시 알파고 자율주행차 음성인식 문자인식 그림인식 TTS 이것들 말고도 다양한 것들에서 머신러닝이 적용된 예시들을 살펴볼 수 있습니다. 머신러닝을 적용하기 전 전통적인 접근 방법 하지만 이런 방식으로 진행하다 보면 스팸메일이 아닌데 스팸메일로 구분하거나 스팸메일인데 일반 메일로 구분할 수도 있습니다. 이것을 해결하기 위해 머신러닝을 이용합니다. .. 2020. 9. 1.
R. 연속형 변수 특성 요약과 시각화(비율형) 비율형 척도 변수컬럼 특성 파악하기 비율형 척도 (ratio) 중에서 지출경비(expense)변수를 선정하여 지출경비 수치들이 가진 중심성, 변동성, 정규성 분포 특성을 파악합니다. 먼저 expense 컬럼을 뽑아내서 어떤 데이터인지 파악하겠습니다. library(Hmisc) Hmisc::describe(cnt$expense) 이제 산술평균, 중앙값, 최빈값을 파악하겠습니다. 1. 산술평균 mean(cnt$expense) mean(cnt$expense, na.rm = TRUE) mean(cnt$expense, na.rm = TRUE, trim = 0.3) 여기서 trim = 0.3을 적용한 mean을 보면 다른 값들에 비해서 현저히 낮은 것을 확인할 수가 있습니다. 이것은 평균에 비해서 극값이 있다는 사.. 2020. 8. 24.
R. 연속형 변수 특성 요약과 시각화(등간형) 연속형 변수 특성 요약과 시각화 연속형 변수 컬럼 서브데이터셋 추출하기 전체 데이터셋 변수 컬럼 중에서 분석 대상 객체 속성의 양적인 크기를 파악한 등간•간격척도와 비율 척도로 측정된 연속형 변수 컬럼 서브데이터셋을 별도로 추출합니다. 먼저 연속형 변수를 꺼내오기 위해 범주형 변수컬럼명을 파악한 후 데이터를 도출하겠습니다. 1. 전체 변수 컬럼명 파악 all_names 2020. 8. 24.
R. 범주형 변수 특성 요약과 시각화(이항형, 다향형) 범주형 변수 컬럼 서브데이터셋 추출 먼저 전체 데이터셋 변수컬럼 중에서 항목을 구별해주는 역할을 하는 이항,(다항•명목), 서열형 데이터로 측정된 변수컬럼 서브데이터셋을 별도로 추출하겠습니다. 1. 데이터 불러오기 my 2020. 8. 24.