본문 바로가기

기타 디지털 소식

GPT-3를 이미지 인식에도 적용! feat, OpeanAI

반응형

OpenAI가 GPT-3를 이미지 인식에도 적용하고 있는 것 같습니다. CLIP과 DALL·E 이라는 두 모델을 통해 컴퓨터가 언어 자체뿐만 아니라 언어가 가리키는 사물의 개념까지도 잘 이해할 수 있도록 학습시킵니다. 학습 방식은 어린아이가 사물에 대한 시각적 정보를 얻고, 이를 기호인 언어와 매칭시키는 것과 비슷합니다.(마스터 알고리즘 스터디를 하면서도 살펴봤던 내용이죠!) 기사에 나오는 "일상 개념(everyday concept)"은 사람이 일상생활 속에서 사물을 이해하는 데 사용하는 개념입니다. 즉 사람의 학습 방식을 모티브로 삼은 것입니다.

 



AI의 미래가 될 수 있는 아보카도 안락의자

: AI가 일상 개념(everyday concept)을 더 잘 이해할 수 있도록 NLP와 이미지 인식을 결합한 두 가지 새로운 모델로 GPT-3를 확장

<출처: MIT Technology Review>

OpenAI는 GPT-3를 통해 방대한 양의 텍스트가 주어지기만 하면 하나의 딥러닝 모델이 다양한 방법으로 언어를 활용하도록 학습될 수 있음을 보여주었습니다. 또한, 텍스트를 픽셀로 교체하면 동일한 방법론으로 AI가 반쯤 그려진 이미지를 완성하도록 훈련시킬 수 있다는 연구 결과가 나왔습니다. GPT-3는 사람이 단어를 사용하는 방식을 모방합니다. 마찬가지로 이미지 GPT-3는 우리가 보는 것을 예측하는 것이죠.

이제 OpenAI는 이러한 아이디어를 통합하여 DALL·E 및 CLIP(Contrastive Language-Image Pre-training)이라는 두 가지 새로운 모델을 구축했습니다. 본 모델은 언어와 이미지를 결합하여 AI가 단어와 그것이 지칭하는 바가 무엇인지 더 잘 이해할 수 있도록 합니다.

OpenAI의 수석 연구원인 일리야 셔츠케버(Ilya Sutskever)는 다음과 같이 말합니다.
“우리는 시각적 세계에 살고 있다. 장기적으로는 텍스트와 이미지를 모두 이해하는 모델을 갖게 될 것이다. AI는 단어와 문장의 의미를 알 수 있기 때문에 언어를 더 잘 이해할 것이다.”

사실 GPT-3가 출력하는 결과물을 살펴보면, 스스로 무슨 말을 하고 있는지 모르는 것 같고 현실 세계와 거리가 멀게 느껴집니다. 이는 실제로 무슨 말을 하고 있는지 모르기 때문입니다. OpenAI 연구원들은 이미지에 텍스트를 매핑하면서 AI가 사람이 사물을 이해하는데 사용하는 일상 개념을 더 잘 파악하도록 시도하고 있습니다.

CLIP와 DALL·E는 서로 다른 방향에서 이 문제에 접근합니다. 언뜻 보기에 CLIP은 평범한 이미지 인식 시스템입니다. 하지만 대부분의 기존 모델처럼 전처리된 데이터셋의 라벨링된 샘플에서 이미지를 인식하도록 학습하지 않습니다. 대신 인터넷에서 그대로 가져온 이미지와 캡션을 통해 학습합니다. “고양이” 또는 “바나나”와 같은 정답 레이블이 아닌, 이미지를 설명하는 캡션을 통해 해당 이미지가 무엇인지 학습하는 것이죠.

CLIP는 32,768개의 랜덤 캡션 중 어떤 캡션이 주어진 이미지에 대해 올바른 캡션인지 예측하도록 훈련됩니다. 이를 위해 CLIP는 다양한 사물을 이름 및 이를 설명하는 단어들, 즉 문장과 매핑하는 방법을 배웁니다. 이로써 학습 데이터셋에 없는 외부 이미지를 보고도 사물을 잘 식별하게 됩니다. 대부분의 이미지 인식 시스템은 CCTV에 찍힌 얼굴이나 위성 이미지의 건물과 같은 특정 유형의 사물을 식별하도록 훈련되었습니다. 하지만 GPT-3와 마찬가지로 CLIP는 추가적인 학습 없이 작업 전체를 일반화할 수 있습니다. 보통 이미지 인식 분야는 사람도 차이를 알아차리지 못할 정도로 미묘하게 변화를 준 “적대적(adversarial)” 샘플로 알고리즘의 성능을 테스트합니다. CLIP는 다른 SOTA(state-of-the-art) 이미지 인식 모델보다 이런 적대적 샘플을 잘 구분할 수 있습니다.

DALL·E는 이미지를 인식하는 대신 이미지를 직접 그립니다. 본 모델은 인터넷에서 가져온 텍스트-이미지 쌍을 학습한 GPT-3의 작은 버전이라 할 수 있습니다. “일출 때 들판에 앉아있는 캐피바라 그림” 또는 “호두의 단면도”와 같은 짧은 자연어 캡션이 주어지면 DALL·E는 이에 맞는 많은 이미지를 생성합니다. 앞선 예시의 결과로, 주황색과 노란색 배경의 들판에 있는 다양한 종류 및 크기의 여러 캐피바라를 그리고, 호두의 단면을 연속적으로 그려냅니다.


초현실적

DALL·E의 결과는 놀랍지만 여전히 잡동사니처럼 보입니다. “파란 딸기가 그려진 스테인드 유리창”이라는 캡션에 대해 많은 정확한 결과를 생성하지만, 일부에는 파란색 창과 빨간색 딸기가 있기도 합니다. 또는 창문이나 딸기가 아예 없는 경우도 있습니다. 해당 문제와 관련하여 OpenAI가 블로그에 게재한 결과를 보면, 정확한 이미지를 추출하기 위해 직접 선별하지 않고, CLIP을 통해 각 캡션마다 설명과 가장 일치한다고 생각되는 32개의 DALL·E 이미지에 대해 순위를 매겼습니다.

이에 대해 애틀랜타에 있는 조지아 기술 연구소에서 NLP 및 컴퓨팅 창의력을 연구하는 마크 리에들(Mark Riedl)은 다음과 같이 말합니다.
“텍스트-이미지는 지금까지 어려운 연구 과제였지만 이번 결과는 매우 인상적이다.”

<출처: MIT Technology Review>

DALL·E의 일상 개념 이해 능력을 테스트하기 위해, 연구원들은 “아보카도 안락의자” 및 “강아지와 함께 걷는 발레복을 입은 아기 무 일러스트”와 같이 이전에는 보지 못했을 것이라고 생각한 사물을 설명하는 캡션을 입력했습니다. 이 두 경우 모두 AI는 그럴듯하게 캡션 내 개념들을 결합한 이미지를 생성했습니다.

DALL·E를 연구한 아디티아 래미쉬(Aditya Ramesh)는 이렇게 설명합니다.
“가장 놀랐던 점은 모델이 서로 관련이 없는 두 가지 개념을 취해 일종의 납득 가능한 결과가 나오도록 조합한다는 것이다.”

특히 안락의자 이미지는 정말 의자와 아보카도처럼 보입니다. 이는 아마도 반으로 자른 아보카도가 움푹 패인 부분을 쿠션으로 하는 등받이가 높은 안락의자처럼 생겼기 때문일 것입니다. 반면, “하프로 만든 달팽이”와 같은 캡션의 경우, 달팽이와 하프를 이상한 방식으로 결합하여 결과가 그렇게 좋지 않습니다.

리에들은 2014년에 고안해 낸 사고 실험인 "Lovelace 2.0 테스트"에 DALL·E를 제출하려고 했습니다. 해당 테스트는 인공지능을 측정하려는 벤치 마크로 튜링 테스트를 대체하기 위한 것입니다. 지능 측정의 한 부분은 창의적인 방식으로 개념을 혼합하는 능력이라고 합니다. 리에들은 컴퓨터에게 펭귄을 안고 있는 남자의 그림을 그리도록 요청하는 것이 대화에서 사람을 속이는 것보다 더 나은 테스트라고 주장합니다.

리에들은 다음과 같이 말합니다. “진짜 테스트는 AI가 본인이 학습한 영역에서 얼마나 벗어날 수 있는지 확인하는 것이다.”

<출처: MIT Technology Review>

텍스트에서 이미지를 생성하는 시스템을 개발하는 엘렌 인공지능 연구소(AI2)의 애니 캠브헤비(Ani Kembhavi)는 기발한 텍스트에서 합성 이미지를 생성하는 모델의 기능이 매우 흥미롭다고 평가했습니다. 그의 동료 조재민도 다음과 같이 말했습니다.
“결과가 마치 기대했던 바를 따르는 것 같아 굉장히 인상적이다. 기존의 텍스트-이미지 생성기는 DALL·E의 공간 추론 능력이나 여러 사물을 그리는 수준의 컨트롤 능력을 보여주지 못했다.”

하지만 DALL·E는 이미 한계가 조금씩 보이는 듯합니다. 캡션에 사물이 많이 포함될수록 그릴 대상이 무엇인지 명확히 파악하여 이를 조합하지 않고 그대로 그리려고 합니다. 그리고 같은 것을 의미하는 단어로 캡션을 바꾸면 때때로 다른 결과가 생성됩니다. 또한, DALL·E가 새로운 이미지를 생성하기보다 온라인에서 접한 이미지를 모방하고 있다는 주장도 들려오고 있죠.

리에들은 다음과 같이 한계를 지적합니다.
"나는 무의 예가 약간 의심스럽다. 스타일을 보면 인터넷에서 일부 예술 작품을 그대로 외웠을 가능성이 있다."

그는 DALL·E가 빠른 검색으로 의인화된 무의 많은 만화 이미지를 가져올 수 있음을 발견했습니다. 그에 따르면 DALL·E의 기반이 되는 GPT-3는 암기 능력으로 악명이 높다고 합니다.

그럼에도 불구하고, 대부분의 AI 연구원들은 시각적 이해를 바탕으로 한 기초 언어 교육이 AI를 더 똑똑하게 만드는 좋은 방법이라고 생각합니다. 셔츠케버는 이렇게 말합니다.
“미래는 이와 같은 시스템으로 구성될 것이다. 이 두 모델은 그 시스템을 향한 단계이다.”

참고 원문: https://www.technologyreview.com/2021/01/05/1015754/avocado-armchair-future-ai-openai-deep-learning-nlp-gpt3-computer-vision-common-sense/

728x90
반응형