본문 바로가기

디지털 중국

GPT-3 vs 최신 중국어 언어 모델(CPM) 비교

반응형

최근 GPT-2에 견줄만한 중국어 언어 모델, 영어로는 Chinese Pre-trained Language Model이라고 하는 것이 발표되었습니다. 칭화대학교와 베이징즈위안인공지능연구원이 공동 연구개발한 모델로 약 26억 개의 파라미터를 바탕으로 학습했다고 하네요. 아래는 해당 내용을 간단하게 설명한 기사이며, 논문을 보고 싶으신 분들을 위해 링크를 첨부하겠습니다. 

<출처: arvix.org>

[2012.00413] CPM: A Large-scale Generative Chinese Pre-trained Language Model (arxiv.org)

 


 

GPT-2와 중국어 언어 모델: 후자의 훈련 방법

최근 중국 AI 연구원들은 모델 학습에 사용되는 파라미터 개수 측면에서 GPT-2와 경쟁할 만한 거대한 언어 모델을 만들었습니다. 이는 베이징즈위안인공지능연구원(北京智源人工智能研究院)과 칭화대학교의 연구원들이 개발하였고, 100GB의 중국어 데이터를 기반으로 약 26억 개의 파라미터를 가지고 학습한 것입니다.

컨텍스트 이해를 위해 GPT-2는 약 15억 개의 파라미터를 통해 학습했습니다. 반면, 중국어 사전 훈련 언어 모델(CPM, Chinese Pre-trained Language Model)은 다양한 크기로 제공되며, 모델 크기가 증가할수록 기능 역시 증가하게 됩니다. 연구원들은 이를 광범위한 NLP 작업을 수행할 수 있는 가장 큰 중국어 사전 훈련 언어 모델이라고 평가했습니다. 100GB 데이터는 GPT -3의 570GB 학습 데이터와 비교할 때 상대적으로 적지만, 상당히 만족스러운 성능을 보였으며 연구원들은 앞으로 더 큰 확장성을 보장할 수 있을 것이라 기대합니다. 

CPM 이면의 기술 및 GPT 모델과의 차이점

<출처: OpenAI 홈페이지>

GPT-3는 그야말로 엄청난 성과였고 다양한 분야에 적용할 수 있지만, 중국어 NLP 작업을 위해 GPT-3를 적용하는 것은 여전히 ​​한계가 많습니다. GPT-3의 훈련 코퍼스가 주로 영어(거의 93%)라는 점, 파라미터가 공개적으로 사용 가능하지 않다는 점 때문이죠. 

이 주요 과제를 극복하기 위해 CPM 연구원들은 GPT-3와 중국어 데이터 간 관련성을 높이기 위해 중국어 데이터를 바탕으로 학습을 시작했습니다. 그들의 지속적인 노력으로 대화, 언어 이해, 에세이 생성과 같은 몇 가지 중국어 NLP 작업이 가능해졌습니다. 이는 실제로 CPM이 제로샷(zero-shot) 학습을 포함한 퓨샷(few-shot) 학습 분야에서 강력한 성능을 가지고 있음을 의미합니다. 

GPT-3와 비교했을 때 CPM은 질문 답변(QA), 요약, 대화, 기본 컴퓨팅 계산, 쓰기 등과 같은 작업에서 상당히 뛰어난 성능을 보입니다.

CPM 연구원들은 중국어 어휘 목록을 확장하고 학습 전략을 재설계하는 등 사전 훈련 중국어 모델에 대한 기존 작업을 보완했습니다. 그들은 새로운 하위 단어 어휘 목록을 구축하고, 보다 안정적인 모델 학습을 위해 학습 배치 크기(batch-size)를 3,072개로 조정했습니다. 

어휘 목록 구성에 대한 작업을 설명하면서, 연구원들은 기존의 사전 훈련 중국어 모델은 일반적으로 입력 텍스트를 문자 수준 시퀀스로 분할하는 BERT-Chinese 모델의 하위 단어 어휘 목록을 사용한다고 말했습니다. 하지만 중국어 단어는 일반적으로 여러 문자를 포함하며, 단어의 의미를 결정하는 중요한 부분이 문자 수준 시퀀스 방식에서는 손실되는 경향이 있습니다. 이 문제를 해결하기 위해 단어와 문자를 모두 포함하는 새로운 하위 단어 어휘 목록을 구성한 것입니다. 

그들은 학습 전략 측면에서 모델 학습을 보다 안정적으로 만들기 위해 큰 배치 크기를 채택했습니다. GPT-3가 사용한 배치 크기(토큰 100만 개 기준)에 비해,  CPM의 배치 크기(토큰 300만 개 기준)는 약 2배가 큽니다. 또한 연구자들은 학습이 이루어지는 동안 단일 GPU에 저장할 수 없는 큰 모델의 경우, 데이터 차원에 따라 여러 개의 GPU에 모델을 분할했습니다. 이를 통해 대규모 훈련이 가능해졌고, 노드 간 데이터 전송량도 줄어드는 효과가 있었죠. 

연구원들은 사전 훈련 과정에서 여러 종류의 텍스트를 백과사전, 뉴스, 소설, 질문게시판과 같은 다양한 출처에서 수집했습니다. 

마무리하며

연구원들은 지금까지 만족스러운 결과를 얻었지만, 적용 분야의 다양성을 보장하고 모델 규모를 늘리기 위해 더 많은 훈련 데이터를 추가하여 대규모 사전 훈련 모델을 업그레이드할 계획입니다. 중국어 데이터뿐만 아니라 다국어 모델 학습을 위해 다국어 코퍼스 역시 추가할 것으로 보입니다. 또한, 학습 프로세스를 더욱 가속화하기 위해 서로 다른 노드 간 데이터 전송 체계와 같은 학습 프레임워크를 최적화할 생각입니다.

CPM은 현재 기술 및 과학적 목적으로만 사용되고 있지만, 일부 전문가들은 GPT-3와 달리 모델 편향에는 큰 관심을 기울이지 않는다고 판단합니다. 그럼에도 불구하고 해당 연구는 GPT-3 논문이 발표된 지 약 6개월 만에 나왔는데, 이는 상당히 놀라운 성과입니다. CPM 연구원들은 계속해서 모델의 효율을 높이기 위해 노력하겠다고 밝혔습니다.

참고 원문: https://analyticsindiamag.com/gpt-2-vs-chinese-language-model-how-was-the-latter-trained/

728x90
반응형