문돌이 존버/코딩연습
2020. 3. 5.
웹스크래핑 + Tokenization + Lemmatization feat.파이썬
안녕하세요~ 이번엔 제가 지난 학기 학교 과제로 수행했던 CNN 기사를 웹스크래핑했던 코드를 공유하고자 합니다. 다음이 전반적인 과제 내용입니다. import requests from bs4 import BeautifulSoup import pandas as pd import os import natsort import re # 폴더 안에 있는 cnn html파일 읽어들이기 # html 파일 구조가 동일하지 않고 총 2가지로 분류되기 때문에 try와 except 활용 path = './cnn/' file_list = os.listdir(path) file_list = natsort.natsorted(file_list,reverse=False) df = pd.DataFrame(columns=['filena..