문돌이 존버/카카오 챗봇 스터디
2021. 3. 9.
KoBERT 쉽게 따라하고 간단한 fine-tuning 하기
"데이터셋에 대한 문의가 많습니다. 해당 데이터셋은 제가 프로젝트의 일환으로 "하이닥"이란 웹 사이트에서 크롤링으로 수집한 것입니다. 아시다시피 제 3자 데이터를 수집한 것을 다시 공유하는 것이 불가하기 때문에 데이터셋 공개는 어려울 것 같습니다. 다만, 데이터셋 형태를 본문에 첨부해놓았으니 참고해주세요. 이해해주셔서 감사합니다." BERT를 처음부터 학습하기란 쉽지 않은 문제죠, 컴퓨터 사양도 좋아야 하고, 무엇보다 댓글 수집에도 많은 시간이 소요되니까요. 저는 한국어 데이터셋을 바탕으로 사전 학습된 모델인 KoBERT를 사용해보기로 했습니다. KoBERT는 SKT Brain에서 구축한 오픈 소스 라이브러리이며, 제가 알고 있는 한국어 BERT는 ETRI의 KorBERT, 이준범님의 KcBERT 정도가..