춘절(春节, 중국 설날)은 중국인들이 가장 중시하는, 또 반드시 성대하게 지내야 하는 명절입니다. 춘절은 딱 3가지 키워드로 정리할 수 있습니다.
“새해 인사, 소비, 모임”
하지만 펜데믹 상황 속 2021년 춘절은 과거처럼 지낼 수 없었고, 대신 모든 것을 온라인에서 진행하는 “온라인 새해 인사”, “온라인 건배”, “온라인 모임” 등 전에는 볼 수 없던 개념이 등장했습니다.
그 중 동영상 플랫폼 아이치이(爱奇艺)는 춘절 분위기를 내기 위해 새로운 AI 새해 인사 놀이를 선보였습니다. 자체 개발한 3D 재건 모델과 대량의 데이터 학습을 통해 춘절에 즐거움을 선사한 아이치이의 AI 새해 인사 놀이를 살펴보겠습니다.
참신한 아이디어: 독보적인 AI 세배 동영상
기존에 텍스트, 음성 메시지로 새해 인사를 하던 방식과 달리 아이치이창작센터는 새해 인사 방식을 다양화했습니다. 이용자들은 아이치이 앱을 통해 “새해인사(拜年)”를 검색하여 “새해 묘회(庙会)” 행사 페이지로 들어간 뒤, 자신이 좋아하는 사진을 업로드하기만 하면 여러 종류의 새해 인사 동영상이 자동으로 만들어집니다.
아기, 애완동물, 셀카 사진 등 어떠한 사진이든 올릴 수 있으며, 업로드 후 get 버튼만 누르면 자신만의 독특한 세배 영상을 만들 수 있습니다. 춘절 연휴 동안 많은 사람들이 이 기능을 이용했고, 친구 및 가족들과 활발히 공유했습니다.
이에 따라 셰어런츠(sharents, 자식의 일상을 영상으로 공유하는 부모를 가리키는 말) 및 애완동물 주인들은 사진 한 장만 올리면 자신만의 새해 인사 영상을 생성해 가족들에게 안부를 전하는 것은 물론 많은 사람들의 관심을 받았습니다.
우수한 AI 기술: 생동감있고 자연스러운 영상
자동으로 만들어진 새해 인사 영상을 보면 매우 자연스럽고 표정 역시 세세한 부분까지 잘 처리된 것을 알 수 있습니다. 근간에는 정적인 이미지를 움직이도록 처리하는 “AI 페이스메이커” 기술이 있었습니다. 영상 생성 과정에서 AI 모델은 목표 대상을 움직일 때 생기는 방해물을 모델링합니다. 이후 조정된 사진에서 외관 정보를 추출하고 원본 사진에서 얻은 특징을 결합해 영상을 합성합니다. 물론 이 기술만 가지고는 동영상을 자연스럽게 보이게 할 수는 없습니다.
아이치이 PersonAI팀은 새해 인사 동영상이 더욱 생동감 있고 자연스러워지도록 원천 기술인 FOMM을 훈련 데이터와 훈련 방법 두 가지 측면에서 최적화를 진행했습니다. 자체 얼굴 인식, 얼굴 속성 인식, 감정 인식, 미표정(매우 빠른 순간의 얼굴 표정) 인식 등의 기술을 활용하여 추출된 학습 영상에서 성별, 나이, 인종, 자세, 표정 등 여러 가지 측면을 고려하여 훈련 데이터의 밸런스를 맞추었습니다.
또한, 아이치이 PersonAI팀은 재미와 자연스러움을 위해 비정상적인 자세와 과장된 표정이 담긴 데이터의 비율을 늘려 학습 데이터의 다양성을 확보했고, 화면 제작 효과를 극대화할 수 있었습니다.
훈련 방법 방면에서 아이치이 PersonAI팀은 기존의 손실 함수(Loss function)에 얼굴 특징, 3D 자세 및 표정, 입 주위 변화 디테일 등의 제약 조건을 추가했습니다.
얼굴 특징은 PersonAI팀의 뛰어난 안면인식 모델로 쉽게 파악하고, 이중선형 3D 복원 모델로 모델 적용 전후 영상에서 얼굴 특징, 자세 및 표정 계수를 추출했습니다. 추가로 입 주변 표정 변화에 가중치를 부여하였고, 자세 범위나 입 주변 움직임이 상대적으로 큰 경우 생성된 영상이 원본 영상과 비슷한 얼굴 특징, 자세 및 표정을 유지하도록 했습니다.
성능안정 : 다양한 블랙 테크놀로지로 인한 사용자 경험 극대화
아이치이 PersonAI팀은 사용자 경험을 향상시키기 위해 생성 효과를 보장하고 모델 속도를 최적화하며, 깊이별 분리 콘볼루션(depthwise separable convolution) 기법을 도입했습니다. 모델 구조 분석을 통해 경량화된 네트워크 모델을 구축하고 모델 추정 속도 역시 대폭 향상시켰습니다.
또 측면 인식과 성능 유지를 위해, PersonAI팀은 자체 개발한 3D 복원 모델을 도입해 생성 전후의 영상에 대해 자세와 표정 계수를 계산해 옆 얼굴의 생성 효과를 극대화했습니다. 테스트 중 PersonAI팀은 작은 모델로는 생성 효과가 감소하고, 특히 입 부분이 흐려짐을 발견했습니다. 이를 해결하기 위해 신경망 지식의 증류기법(distilling the knowledge in a neural network)을 통해 작은 모델의 생성 효과를 높이고 입 부분을 별도로 최적화하했습니다.
이 중 3D 모델의 가용성을 높이기 위해 FaceScape 데이터(CVPR 2020에 소개된 3D 얼굴 데이터) 처리 부분을 개선한 PersonAI팀은 FaceScape의 이중선형 베이스 모델인 PCA를 결합하여 신원과 표정 계수가 매치되도록 학습했습니다.
FaceScape의 다각도 원본 이미지는 테스트를 위해 적절한 광선과 간단한 배경을 사용했는데, 이는 실제 세계의 이미지와 차이가 큽니다. PersonAI팀은 raw scan 모델을 사용하여 랜덤하게 각도를 회전시키고 일정한 각도 내의 광선을 선염하여, 선염된 이미지와 랜덤으로 선택된 배경이 쌍(pair)을 이룬 것을 학습 데이터로 활용했습니다.
한편 PersonAI팀은 자체 개발한 랜드마크 검출기에 따라 얼굴 랜드마크를 정확히 측정해 3Dmm 모델의 표정 계수와 신분 계수를 매치시켰습니다. 이 데이터의 특징은 환경이 실제 환경이라는 것입니다. FaceScape의 데이터 부족을 보완하면서도 사용자의 체험을 향상시킬 수 있습니다.
'디지털 중국' 카테고리의 다른 글
우다오(悟道)2.0 발표, 쯔위엔연구원 가상 디지털 인간 화즈빙 (1) | 2021.07.03 |
---|---|
중국 춘절 특집 방송 춘완(春晚), 틱톡 단독 협력사 채택, 20억 홍빠오(红包) 추첨 (0) | 2021.02.18 |
바이두(Baidu)의 2021년을 책임질 AI 기술 5가지 (0) | 2021.01.18 |
동영상 소셜 시대(Video Socialization Era)의 도래, feat. 틱톡 (0) | 2020.12.29 |
GPT-3 vs 최신 중국어 언어 모델(CPM) 비교 (0) | 2020.12.20 |