본문 바로가기

기타 디지털 소식

최근 구글 번역의 발전 feat. Google AI Blog

반응형

구글 AI 블로그 아티클 번역 5편입니다~ 부지런히 또 달려보겠습니다^^

 


최근 구글 번역의 발전

2016년에 소개되어 100개 이상의 언어 번역 품질 향상을 이루어낸 ‘GNMT(Google Neural Machine Translation) 신경 번역 모델’ 등 머신러닝의 발전으로 자동 번역은 계속 개선되고 있다. 하지만 최고 수준의(SOTA) 시스템이라 하더라도 정말 특정 일부 번역 작업을 제외하고는 모든 작업에서 사람의 수준보다 훨씬 뒤처진다. 또한, 연구 결과들을 볼 때 스페인어, 독일어와 같이 리소스가 많아 훈련 데이터가 방대한 언어에는 좋은 성능을 보였지만 루바, 말라얄람어 등의 리소스가 적은 언어에 대한 성능은 여전히 ​​부족하다. WMT Evaluation Campaign(전문가들이 모여 공동의 기계 번역 과제를 수행하는 자리)등 통제된 연구 환경에서는 많은 기술들이 리소스가 적은 언어에 대해 상당한 성과를 냈지만, 이는 웹 크롤링이 가능할 정도의 대규모 데이터셋이 아닌 열람 가능 수준의 소규모 데이터셋만 얻을 수 있다는 한계를 지닌다. 

본 글에서는 구글이 지원하는 언어 특히, 리소스가 적은 언어의 번역 품질에 대한 최근 진행 상황을 공유하려고 한다. 다양한 기술적 발전을 종합하고 확장하여 번역 품질 향상을 이루어낸 과정 및 이를 노이즈(noise)가 많은 웹 마이닝 데이터에 대규모로 적용할 수 있는 방법을 설명할 것이다. 기술 발전이란 모델 아키텍처 및 학습 개선, 데이터셋 노이즈 처리 개선, M4(Massively Multilingual, Massive neural Machine translation) 모델링을 통한 다국어 전이 학습 증가 , 단일 언어 데이터 사용 등을 가리킨다. 100개 이상의 언어에서 평균 5점 이상의 BLEU(Bilingual Evaluation Understudy) 점수를 기록한 품질 개선 사항을 아래에 표시해보았다.

2006년에 시작된 Google 번역 모델의 BLEU 점수 변화 과정이다. 작년에 새로운 기술을 구현한 이후 개선된 사항은 애니메이션 마지막 부분에 강조 표시된다.

 

리소스가 적은 언어, 리소스가 많은 언어 모두를 위한 발전

1. 하이브리드 모델 아키텍처의 발전

4년 전, 우리는 RNN 기반의 GNMT 모델을 도입하여 품질을 크게 개선하고 구글 번역을 통해 더 많은 언어를 지원할 수 있었다. 이후 모델 성능의 다양한 측면을 분리하는 작업을 진행하며, 트랜스포머(transformer) 인코더와 RNN 디코더를 적용한 Lingvo(텐서플로우 기반의 프레임워크)를 구현하여 기존의 GNMT 시스템을 대체했다. 트랜스포머 모델은 일반적으로 RNN 모델보다 기계 번역에서 더 효과적인 것으로 알려져 있다. 하지만 우리는 품질 향상의 이유가 트랜스포머 인코더 때문이며, 트랜스포머 디코더가 RNN 디코더보다 크게 뛰어나지 않다는 것을 발견했다. 게다가 RNN 디코더는 추론 시간이 훨씬 빨라 트랜스포머 인코더와 결합하기 전에 다양한 최적화를 적용할 수 있었다. 이렇게 탄생된 하이브리드 모델은 품질이 높고, 학습이 안정적이며, 지연 시간이 짧아졌다. 

2. 웹 크롤링

신경망 기계 번역(이하 NMT) 모델은 일반적으로 공개 웹에서 번역된 문장 및 문서의 예를 수집하여 학습한다. NMT는 구문 기반 기계 번역에 비해 데이터 품질에 더 민감하게 반응한다. 따라서 우리는 공개 웹에서 더 높은 품질의 학습 훈련 데이터 수집이 가능하도록 기존의 데이터 수집 시스템에서 재현율(recall)보다 정밀도(precision)에 초점을 맞춘 새로운 데이터 마이너로 변경했다. 추가로 14개 대규모 언어 쌍 구축을 위해 웹 크롤러를 사전 기반(dictionary-based) 모델에서 임베딩 기반(embedding-based, 자연어를 숫자 벡터로 변환) 모델로 변경했다. 이를 통해 정밀도 손실 없이 수집된 문장 수가 평균 29% 증가하게 되었다.  

3. 데이터 노이즈 모델링

노이즈가 많은 데이터는 중복될뿐만 아니라 학습된 모델의 품질을 저하시킨다. 이에 대응하고자 우리는 논문 ‘NMT 학습 노이즈 제거(denoising NMT training)’를 참고하여 노이즈가 있는 데이터를 학습하고 깨끗한 데이터로 미세 조정(fine-tuning)을 거친 예비 모델을 통해 모든 학습 예제에 점수를 부여했다. 이후 본모델 학습 훈련은 모든 데이터에 대해 학습을 ​​시작하고, 점차 더 작고 깨끗한 하위 집합에 대해 학습하는 '커리큘럼 학습 문제'로 진행했다.

특히 리소스가 부족한 언어에 도움이 되는 발전

1. 역(Back) 번역

최고 수준의(SOTA) 기계 번역 시스템에 널리 채택된 역 번역은 특히 병렬 데이터가 부족한, 리소스가 적은 언어에 유용하다. 병렬 데이터란, 특정 언어의 문장과 그에 따른 번역이 쌍을 이룬 상태를 의미한다. 역 번역은 사람에 의해 작성된 문장과 NMT 모델이 번역한 문장을 쌍으로 묶은 합성 병렬 학습 데이터를 통해 병렬 데이터를 증가시킬 수 있다. 

역 번역을 구글 번역에 통합하면 리소스가 적은 언어에 대해 더 풍부한 단일 언어 텍스트 데이터를 사용하여 모델 학습을 진행할 수 있다. 이는 리소스가 적은 언어 번역 모델의 성능이 저조한 항목인 번역의 "자연스러움"을 높이는 데 도움이 된다.

2. M4 모델링

리소스가 적은 언어에 특히 중요한 기술은 M4로, 이는 하나의 거대한 모델을 사용하여 모든 언어와 영어 간 번역 작업을 진행한다. 이를 통해 대규모 전이 학습 또한 가능한 것이다. 예를 들어, 이디시어와 같은 리소스가 적은 언어는 광범위한 게르만어 관련 언어(독일어, 네덜란드어, 덴마크어 등)와 함께 학습되어 좀 더 쉽게 영어로 번역될 수 있다. 이외에도 언어학적 관련성이 밝혀지지 않은 100여개의 다른 언어 역시 공동 학습을 통해 모델에 유용한 정보를 제공한다.

번역 품질 판단

기계 번역 시스템의 자동 품질 평가를 위한 대표적인 측정 항목은 BLEU 점수로, 이는 기계 번역과 사람에 의한 참조 번역 간의 유사성을 기반으로 한다. 우리는 GNMT 모델에 비해 평균 5점 이상 높은 BLEU 점수를, 리소스가 가장 낮은 언어 50개에 대해선 평균 7점 이상 높은 BLEU 점수를 기록했다. 이러한 개선은 4년 전, 구문 기반 번역에서 NMT로 전환할 때 나타난 성과와 견줄만 하다.

BLEU 점수는 잘 알려진 근사적 측정 방법이지만, 이미 번역 품질이 훌륭한 시스템에 적용하면 다양한 함정이 있는 것으로 알려져 있다. 예를 들어, BLEU 점수는 소스 언어(기존 문장)든, 타겟 언어(번역 문장)든 “번역투 효과”에 의해 왜곡될 수 있다. 이는 높은 BLEU 점수임에도 어순 등 여러가지 이유로 번역된 텍스트가 어색하게 들리는 현상으로, 흔히 기계가 번역한 듯한 느낌을 주는 것이다. 이를 방지하기 위해 우리는 모든 새로운 모델에 대해 사람이 직접 평가를 수행하여 확실하게 BLEU 점수 향상을 확인했다.

일반적인 품질 개선 외에도 새 모델은 ‘기계 번역 환각’에 대한 견고함을 보여준다. 해당 현상은 말도 안되는 입력이 주어졌을 때, 모델이 "이상한" 번역을 생성하는 현상이다. 이는 소량의 데이터를 학습한 모델에서 흔히 발생하는 문제이며 리소스가 적은 언어는 쉽게 영향을 받는다. 예를 들어, 텔루구어 문자열 "ష ష ష ష ష ష ష ష ష ష ష ష ష ష ష" 을 입력하면 기존 모델은 Shenzhen Shenzhen Shaw International Airport (SSH)”라고 번역문을 생성한다. 소리를 이해하려고 노력한 것처럼 보이지만, 사실 전혀 엉뚱한 번역이다. 반면, 새 모델은 이를 "Sh sh sh sh sh sh sh sh sh sh sh sh sh sh" 라고 음역하며 올바르게 학습하는 모습을 보인다.

결론

위에서 설명한 기술들은 기계에게 있어 큰 진전이지만, 특히 리소스가 적은 언어의 경우 자동 번역 품질은 아직 완벽과는 거리가 멀다. 이러한 모델은 특정 도메인 영역의 품질 저하, 비공식 언어 및 구어 품질 저하, 다른 방언 간의 결합, 지나친 직역 생성 등 일반적인 기계 번역 오류를 자주 범한다.

하지만 이번 업데이트를 통해, 108개의 지원 언어 중 리소스가 가장 낮은 언어에 대해서도 상대적으로 일관된 자동 번역을 제공하게 된 것을 자랑스럽게 생각한다. 

참고 원문: https://ai.googleblog.com/2020/06/recent-advances-in-google-translate.html

728x90
반응형