문돌이 존버/코딩연습
2020. 7. 18.
파이썬 웹크롤링(web-crwaling) 파헤치기! feat. BeautifulSoup, Selenium
이번에 회사 동료분이 슬랙, 라인웍스, 잔디, 워크플레이스 등 여러 기업용 메신저 블로그 포스트를 정리해야 했는데요. 그 많은 포스트를 수동으로 작업하려고 하니 앞길이 막막해 보이더라구요. 저도 웹크롤링 공부도 할겸 포스트를 긁어주겠다고 말했고, 짧지 않은 시간을 들여 코딩해봤습니다. ㅋ 사이트마다 html 구조가 달라 다소 귀찮았지만... 덕분에 html 공부도 했네요. 긁어와야 할 정보는 날짜, 제목, URL 이었습니다. 저는 Selenium을 쓸 때, find_elements_by_css_selector 과 find_elements_by_xpath를 혼용해서 사용했습니다. 잔디의 경우, 페이지 이동이 아닌 "더보기" 버튼을 클릭하는 구성이었습니다. 즉 더보기를 계속 누르면서 무한 스크롤을 해야 하는..