크롤러
-
[파이썬] Beautifulsoup 를 이용한 웹페이지 스크래핑#파이썬 2020. 3. 25. 19:54
수정일 : 2020-11-23 각종 웹에 일반적으로 크롤러라고 소개되어있으나 PyPi의 Beautifulsoup 프로젝트를 보면 분명 " Beautiful Soup is a library that makes it easy to scrape information from web pages." 로 소개되어 있습니다. 물론 bs 도구를 활용해서 크롤러를 만들어볼 순 있을 것 같습니다. 하지만 이 글에서는 크롤링과 관련된 내용은 없으며 스크래핑하는 것에 대해서만 다룹니다. 더불어 크롤링(Crawling)는 일반적으로 검색엔진에서 사용되는 웹에 있는 문서들을 추적하는 기술입니다. URL이 주어지면 이 URL에 포함된 혹은 관련된 하이퍼링크들을 재귀적으로 탐색해서 많은 웹문서들을 (효율적으로) 탐색하고 필요한 데이..