본문 바로가기

Python/Python크롤링6

크롤링한 데이터 DB에 저장하기 크롤링한 데이터를 데이터 베이스에 저장하는 이유 먼저 크롤링한 데이터를 DB에 저장하는 이유는 데이터 분석에 사용하거나 웹 API를 만들어서 애플리케이션에서 활용하기 위해서 사용합니다. 또한 처리속도면에서도 데이터베이스를 사용하는것이 좋고 AWS나 AZURE과 같은 다양한 클라우드 내에 있는 데이터베이스를 활용하면 더욱더 좋게 사용할 수 있습니다. MySQL사용하기 먼저 MySQL이 설치 되어있다고 가정하고 진행하겠습니다. MySQL은 아래 링크에서 다운로드 받을 수 있습니다. 링크 : www.mysql.com/downloads/ MySQL :: MySQL Downloads Contact MySQL | Login | Register The world's most popular open source dat.. 2020. 10. 28.
Wget을 이용해서 크롤링 시작하기(체험하기) Wget이란 웹 서버로부터 콘텐츠를 가져오는 컴퓨터 프로그램으로, GNU 프로젝트의 일부입니다. 이 프로그램의 이름은 월드 와이드 웹과 get에서 합쳐진 Wget입니다. Wget은 HTTP, HTTPS, FTP 프로토콜을 통해 내려받기를 지원합니다. 또한 Wget은 단순하게 파일을 내려받는 용도 외에도 웹 페이지를 재귀적으로 순회하며 내려받거나, HTML 링크를 상대 경로에서 절대 경로로 변환하는 기능도 제공합니다. 이렇게 Wget은 크롤링으로 다양한 기능을 사용할 수 있습니다. Wget설치하기 MacOS에서 설치하기 먼저 MacOS는 터미널에 들어가서 Homebrew를 통해 간단하게 설치를 할 수 있습니다. brew install wget 또는 다음과 같은 사이트에 들어가서 다운로드를 받을 수 있습니다.. 2020. 10. 27.
파이썬 정규표현식 정규표현식 정규 표현식이란 특정한 규칙을 가진 문자열의 집합을 표현하는 데 사용하는 형식 언어이다. 정규 표현식은 많은 텍스트 편집기와 프로그래밍 언어에서 문자열의 검색과 치환을 위해 지원하고 있으며, 특히 펄과 Tcl은 언어 자체에 강력한 정규 표현식을 구현하고 있다. 컴퓨터 과학의 정규 언어로부터 유래하였으나 구현체에 따라서 정규 언어보다 더 넓은 언어를 표현할 수 있는 경우도 있으며, 심지어 정규 표현식 자체의 문법도 여러 가지 존재하고 있다. 현재 많은 프로그래밍 언어, 텍스트 처리 프로그램, 고급 텍스트 편집기 등이 정규 표현식 기능을 제공한다. 출처 : https://ko.wikipedia.org/wiki/정규_표현식 정규 표현식 예시 먼저 아래와 같은 조건을 이용하여 정규표현식을 생성하겠습니.. 2020. 9. 8.
DOM 구조 트리 이동 DOM 구조 트리 이동 먼저 다음과 같은 홈페이지(http://www.pythonscraping.com/pages/page3.html)는 아래와 같은 HTML 트리 구조로 나타낼 수 있습니다. html body div.wrapper h1 div.content table#giftList tr th th th th tr.gift#gift1 td td span.excitingNote td td Img 많은 테이블 행들 div.footer 자식과 자손 먼저 tr 태그는 table태그의 자식이며 tr과 th, td, img, span모두 table 태그의 자손입니다. 자식은 부모보다 한태그 아래있고 자손은 조상보다 몇 단계든 아래에 있을 수 있습니다. 또한 모든 자식은 자손이 될 수 있지만, 모든 자손은 자식이 .. 2020. 9. 8.
find( ), findAll( ) find() 와 findAll() findAll(tag, attributes, recursive, text, limit, keyword) tag, attributes .findAll("태그명", "dict형식의 속성") recursive recursive가 True이면 findAll 함수는 매개변수에 일치하는 태그를 찾아 자식, 자식의 자식까지 검색합니다. recursive가 False이면 findAll 함수는 문서의 최상위 태그만 찾습니다. 기본값은 recursive가 True입니다. text text는 태그의 속성이 아니라 텍스트 콘텐츠가 일치하는 값을 찾습니다. 예를 들면 예시 페이지에서 text가 "the prince"라는 단어가 몇번 나왔는지 확인하려면 nameList = bsObj.findAl.. 2020. 9. 8.
000. chrome driver.exe와 selenium을 이용해 구글 접속하기 chrome driver 설치하기 먼저 chrome driver를 설치하기 위해 https://chromedriver.chromium.org/downloads Downloads - ChromeDriver - WebDriver for Chrome WebDriver for Chrome chromedriver.chromium.org 에 접속하여 자신의 크롬 버전에 맞는 ChromeDriver를 설치해줍니다. 크롬버전은 오른쪽 상단의 메뉴를 클릭해 아래와 같은 곳에 들어가 정보를 확인할 수 있습니다. 그 후 ChromeDriver가 저장된 곳의 경로를 잘 기억해서 파이썬 코드에 넣어야 합니다. Selenium 시작하기 먼저 Selenium을 사용하기 전에 cmd나 터미널에서 pip 명령어를 통해 설치합니다. 설.. 2019. 10. 5.