프로필사진

2021/11 3

스크래퍼 만들기 2 - Selenium으로 스크래핑(크롤링)하기

(이 글은 2019년 8월 29일에 처음 작성한 글입니다) 셀레늄은 본래 웹이 잘 작동하는 지 실험하기 위한 도구였다. 하지만 자바 스크립트를 읽기 유용하다는 점에서 스크래핑 도구로 사용될 수 있다. 하지만 엄청 느리다. 인간이 하는 행동을 그대로 자동화 시킬 수 있다는 점에서 강력하지만 우리가 무의식적으로 하는 행동 (클릭 등)을 다 일일이 설정해줘야 하기 때문에 귀찮음 꼼꼼함이 요구된다. 기본적인 동작 실행 먼저 필요한 모듈을 불러온다. from selenium import webdriver (설치가 안되어 있다면 pip install selenium) 셀레늄은 파이썬 내에서 웹을 실행시켜 그 안에서 작업을 수행할 수 있게 해주는 도구이다. 셀레늄을 사용하기 위해서는 웹 드라이버가 필요하다. 맞는 버..

IT Anthology/how-to 2021.11.24

스크래퍼 만들기 1 - BeautifulSoup으로 스크래핑(크롤링)하기

(이 글은 2019년 8월 27일 처음 작성한 글입니다) 스크래핑, 혹은 크롤링은 데이터를 모으기 위한 첫번째 방법이다. 가장 필요한만큼 많은 방법이 존재한다. 파이썬에서 스크래핑을 배우기 시작한다면, 크게 아래 세가지의 툴에 대한 얘기를 많이 듣게 될 것이다. BeautifulSoup 이용 Selenium 이용 scrapy 이용 오늘은 가장 손쉽게 가지고 놀 수 있는 BeautifulSoup에 대해 정리해보겠다. BeautifulSoup 스크래핑 기본 필요한 모듈은 다음과 같다. import requests from bs4 import BeautifulSoup 네이버 뉴스를 한번 스크래핑 해보자 검색 keyword를 NLP로 해보겠다. 검색어를 입력하고 '뉴스'탭에 들어가면 위와 같은 주소가 나온다. ..

IT Anthology/how-to 2021.11.24

깃헙(github) 블로그 개설부터 글쓰기까지 총정리

(이 글은 2019년 8월 24일에 처음 작성한 글입니다) 깃헙 블로그는 자유도가 높은만큼 핸들링하는 방법이 손쉽지는 않다. 실력에 따라 무궁무진하게 디자인할 수 있지만, 이제 막 프로그래밍을 시작한 초보 개발자에게는 진입장벽이 있는 것이다. 지금의 블로그는 여러 이유 때문에 티스토리로 옮겨왔지만, 깃헙 블로그를 처음 시작할 때 꽤나 애먹었기 때문에 글을 써서 남겨놓았다. 깃헙 블로그를 선택하는 이유는 여러가지가 있을 수 있다. 당시 깃헙 블로그를 개설했던 첫번째 이유는 간지가 나서였다. 무려 'github'이 내 블로그 주소에 박히는 거니까. 깃헙으로 블로그를 개설하면 따라오는 '.io'도 뭔가 특별해 보였다. 두번째 이유는, 정해진 틀 없이 화면을 내 마음대로 요리할 수 있다는 점이었다. 하지만 나는..

IT Anthology/how-to 2021.11.24