본문 바로가기

디지털 중국

알리바바, 딥페이크(DeepFake) 탐지 기술 개발 feat. ACM MM2020

반응형

소요에서 관련 내용 확인하기

오랜만에 디지털 소식과 관련된 글을 올리는 것 같습니다. 여태 프로젝트에만 매달려서 소식을 살펴볼 정신이 없었네요 ㅠ 혹시 이번에 MIT 학생이 운영하는, GPT-3가 작성한 블로그 글을 보셨나요? 저는 다 읽어갈 때쯤 작성자가 AI라는 사실을 인식하지 못한 스스로의 모습에 '헉' 하며 놀랐습니다. 문장이 매우 자연스러웠고, 사전 정보가 없다면 저 또한 알아차리지 못했을 것입니다. 이제는 정말 AI만이 AI를 발견할 수 있는 시대인가 봅니다. 이런 생각을 하며 중국 소식을 살펴보다 알리바바의 딥페이크 탐지 기술을 발견했고, 이를 간단하게 소개한 내용을 공유하고자 합니다.

 




여러 사람의 얼굴이 포함된 동영상 속에서 한 명 또는 몇 명의 얼굴만 위조된 경우를 어떻게 감지하고 식별할 수 있을까요? 최근 알리바바 산하 연구소 알리안전튜링실험실(阿里安全图灵实验室)은 얼굴 변환 동영상, 즉 딥페이크(DeepFake)에 대한 탐지 기술을 개발했으며 관련 논문이 국제 학술대회 ACM MM2020에 승인되었습니다.

딥페이크 탐지 기술은 현실 세계에서 중요한 가치를 지닙니다. 예를 들어, 공격자가 음란 동영상의 주인공 얼굴을 특정 대상 얼굴로 바꾸면 딥페이크 탐지 기술은 가짜를 식별하고 진짜를 찾아내는 것이죠.

현재 업계에서 일반적으로 사용되는 딥페이크 동영상 탐지 솔루션은 프레임 단위 탐지와 동영상 단위 탐지, 이렇게 총 두 가지 방안으로 나뉩니다. 프레임 단위 탐지는 데이터 라벨링에 비용이 많이 들고, 프레임 예측을 동영상 예측으로 변환해야 합니다. 이를 위해서는 수준 높은 융합 기술이 필요한데, 데이터 누락이나 잘못된 감지 등 여러 오류의 발생 가능성이 있습니다. 또한, 동영상 단위 탐지는 다양한 접근법보단 시계열에 따라 구성되는 탐지 모델(RNN)에 지나치게 집중하는 면이 있습니다. 하지만 이는 탐지 효과 향상 가능성이 제한된다는 단점이 발생합니다.

이러한 단점을 보완하고 부분적으로 위조된 딥페이크 동영상을 더 잘 감지하기 위해, 알리안전튜링실험실은 간단한 라벨링 및 뉴럴 네트워크를 통한 사람 얼굴 특징 학습이 가능한 새로운 감지 모델을 제안했습니다.
알리안전튜링실험실은 공격자가 동영상 내 얼굴을 변환할 시 드러나는 약점을 발견했습니다. 얼굴 변환은 동영상의 단일 프레임을 위조하는 것이며, 이는 곧 동일한 얼굴이 인접한 프레임에서 흔들리는 현상을 초래합니다. 따라서 이런 미세한 흔들림을 발견하고 식별을 돕는 새로운 탐지 모듈을 설계한 것입니다.

지금까지 업계에서 제안한 대부분의 탐지 방법은 동영상에 한 사람만 등장해 얼굴이 변환된 경우나 등장한 모든 사람들의 얼굴이 변환된 경우에만 국한되었습니다. 이런 한계점을 극복하기 위해 알리안전튜링실험실은 동영상 부분 변환 공격에 대한 데이터셋을 구축했습니다. 이를 바탕으로 딥러닝 기술에 기반한 학습 과정을 계속 거치는 것이죠.

사진 설명: 위 사진에는 네 명의 얼굴이 포함되어 있습니다. 공격자가 한 사람의 얼굴에만 딥페이크 기술을 적용하는 경우에도 알리안전튜링실험실의 새로운 보안 기술은 성공적으로 탐지할 수 있습니다.


이번 딥페이크 탐지 기술은 동영상 단위 탐지 및 프레임 단위 탐지 분야에서 우수한 역량을 보여주고 있다고 합니다. 또한 중국과학원 컴퓨팅기술 연구소의 공동 연구원에 따르면, 이번 연구 결과는 일반적인 동영상에 대한 학습 및 라벨링 기술 연구 방면에도 중요한 의의를 가진다고 하네요.

알리바바는 올해 3월부터 보안 위협 방지, 보안 시스템 구축, 디지털 인프라 보안 모델 등에 전념하며 차세대 보안 아키텍처를 출시했습니다. 특히, 이번에 개발한 딥페이크 탐지 기술은 차세대 보안 아키텍처의 핵심 AI 기술입니다. 향후 미디어 콘텐츠 및 라이브 방송 보안에 적극 적용할 예정이라고 합니다.

참고 원문: https://3g.163.com/dy/article/FKDN65690511A6N9.html

728x90
반응형