본문 바로가기

기타 디지털 소식

GPT-3 유료화 결정, 모델 개발과 실행 비용은? feat.OpenAI

반응형

소요에서 관련 내용 확인하기

OpenAI와 GPT-3의 상용화에 대해 설명하고 있는 아티클을 전문 번역해보았습니다. 같은 매체, 같은 기자(개발자)가 작성한 것으로 이전에 번역한 GPT-3의 기술력 이면에 가려진 OpenAI의 스토리를 같이 읽어보면 행간을 읽는 데 도움이 될 것 같네요. 마찬가지로 분량이 조금 길지만 천천히 읽어보면 다양한 매체에서 언급하고 있는 GPT-3와 OpenAI, 그리고 마이크로소프트까지 나아가는 방향성이 눈에 보일 것입니다~ 

 


 

OpenAI의 방대한 언어 모델 GPT-3가 출시된 이후, 개발자, 연구원, 기업가 및 언론인 사이에서 많은 논의가 이루어졌습니다. 대부분 AI 기반 텍스트 생성이란 기능적 측면에 초점을 맞추었습니다. 사용자들은 AI를 사용하여 아티클에서 웹사이트 코드에 이르기까지 다양한 것을 생성하는 흥미로운 실험을 진행했습니다.

하지만 GPT-3는 아직 모호한 부분이 많습니다. OpenAI는 딥러닝 모델을 대중에게 무료로 제공하는 대신 상용화하기로 결정했습니다. 또한 GPT-3는 훌륭한 업적을 수행할 수 있는 능력을 많이 보여줬지만, 이후 실제 서비스 제품이 될지 아니면 실행 가능한 비즈니스 모델을 찾지 못한 수많은 버려진 프로젝트 중 하나가 될지는 아직 명확하지 않습니다.  

이달 초, OpenAI는 GPT-3의 초기 가격 책정 계획을 발표했습니다. 이 새로운 정보는 AI에 관한 다른 뉴스만큼 놀랍거나 충격적이지 않더라도, GPT-3 및 OpenAI의 미래를 평가하는 데 매우 중요합니다.

 

이 가격 책정 계획을 통해, OpenAI가 GPT-3를 수익성 있는 비즈니스로 전환하는 데 필요한 사항 및 AI 기술의 혜택을 받을 수 있는 조직의 유형을 더 잘 파악할 수 있게 되었습니다. GPT-3는 최초의 대규모 언어 모델이며, 본 글에서 논의할 내용의 대부분은 추측에 불과합니다. 그 이유는 거대한 딥러닝 알고리 기반의 비즈니스 운영에 따른 숨겨진 비용을 아직 알지 못하기 때문입니다. 하지만 앞으로 몇 달 동안 GPT-3 경제의 진행 상황을 추적할 수 있는 몇 가지 가이드라인을 갖추는 것이 좋겠죠.

상용(Commercial) AI

사실, 가장 이상적인 상황은 OpenAI가 GPT-3를 대중에게 공개하는 것이었습니다. 하지만 우리는 이제 상용 AI 시대에 살고 있으며, OpenAI와 같은 AI 연구소는 연구 자금을 마련하기 위해 부유한 기술 회사와 밴처케피탈회사에 의존할 수밖에 없습니다. 이로 인해 투자 수익을 창출하고 향후 자금을 확보할 수 있도록 수익성이 높은 비즈니스를 창출해야 하는 것입니다.

2019년, OpenAI는 AGI(artificial general intelligence, 범용 인공지능)를 향한 장거리 마라톤 비용을 충당하기 위해 비영리 조직에서 영리 회사로 전환했습니다. 얼마 지나지 않아, 마이크로소프트는 OpenAI에 10억 달러를 투자했습니다. 투자를 발표한 블로그 게시물에서 OpenAI는 AGI 선행 기술 일부를 상용화할 것이라고 선언했습니다.

이렇게 보면, 지난 6월에 GPT-3용 아키텍처와 사전 훈련된(pretrained) 모델을 공개하지 않고 상용 API를 통해 제공하겠다고 발표한 것은 그리 놀라운 일이 아닙니다. 일찍이 OpenAI의 심사와 승인을 받은 베타 버전 사용자들은 GPT-3에 대한 무료 접근 권한을 얻었습니다. 하지만 10월부터는 가격 책정 계획이 시행될 것입니다.

GPT-3 API를 설명한 블로그 게시물에서 OpenAI는 딥러닝 모델을 오픈 소싱하지 않는 세 가지 주요 이유를 언급했습니다. 첫 번째, 진행 중인 연구 비용을 충당해야 합니다. 두 번째, GPT-3를 실행하려면 많은 회사에 없는 방대한 컴퓨팅 리소스가 필요합니다. 세 번째(이 게시물에서 다루지 않을 것), 오용 및 유해한 애플리케이션을 방지해야 합니다.

이를 바탕으로, 우리는 GPT-3 수익화를 위해 OpenAI가 연구 개발 비용을 해결하고 모델 실행 비용을 충당할 수 있는 “수익형 비즈니스” 모델을 찾아야 함을 알 수 있죠.

GPT-3 학습 비용

프로세스에 대한 투명성 없이 GPT-3 개발 비용을 추정하기는 어렵습니다. 하지만 적어도 우리는 한 가지는 알고 있습니다. 큰 신경망을 훈련하는 것은 분명히 비용이 많이 듭니다.

GPT-3는 순차적 데이터를 처리하고 생성하는 작업에 특히 뛰어난 신경망 아키텍처인 Transformer 모델로, 그 규모가 매우 큽니다. 96개의 레이어와 1,750억 개의 매개변수로 구성되어 있으며, 이는 사상 최대의 규모입니다. 과거 기록을 살펴보면, 마이크로소프트의 Turing-NLG는 170억 개의 매개변수를 가지고 있고, GPT-3의 이전 모델인 GPT-2는 15억 개의 매개변수가 있습니다.

Lambda Labs는 GPT-2를 기반으로 GPT-3 학습에 필요한 컴퓨팅 성능을 계산했습니다. 추측하기로 1,750억 개의 매개변수 신경망을 훈련하려면 3.114E23 FLOPS(floating-point operations per second, 1초당 수행할 수 있는 부동 소수점 연산 횟수)가 필요합니다. 이는 이론적으로 28 TFLOPS(테라 FLOPS) 용량의 V100 GPU 서버에서 355년이 걸리며, 시간당 비용이 1.5 달러라고 한다면 총비용은 460만 달러(한화 약 53억 5천만 원)가 될 것입니다.

Lambda Lab의 최고 과학 책임자인 Chuan Li는 V100 GPU를 통해 계산이 매우 간단해졌다고 말했습니다. 실질적으로 단일 GPU에서 GPT-3를 훈련할 수는 없지만, 많은 GPU가 있는 분산 시스템을 사용하면 된다는 것입니다.

 

병렬 그래픽 프로세서를 추가하면 딥러닝 모델을 학습하는 데 걸리는 시간이 단축되긴 합니다. 하지만 확장성이 완벽하지 않으며 GPU 내 장치 간 통신에 추가 오버헤드(overhead, 어떤 처리를 하기 위해 들어간 간접적인 처리 시간 및 메모리)가 발생할 것입니다. 따라서 Chuan Li는 GPT-3의 학습주기를 마치려면 최소 460만 달러 이상이 소요될 것이라고 언급했습니다.

주목할만한 사실은 마이크로소프트가 OpenAI와 협력하여 구축한 슈퍼컴퓨터와 같은 특수 하드웨어가 병렬 V100 클러스터보다 비용 효율적일 수 있다는 것입니다. 하지만 역시 세부 사항은 알 수가 없죠.

GPT-3가 적절히 작동하도록 하는 전체 프로세스 역시 중요합니다. 최종 딥러닝 모델을 학습하는 것은 GPT-3 개발의 여러 단계 중 하나에 불과합니다. 그전에 층과 매개변수를 점진적으로 늘리고 올바른 구성 환경에 도달할 때까지 모델의 많은 하이퍼파라미터를 조작해야 합니다. 이러한 시행착오는 신경망이 성장함에 따라 점점 더 많은 비용이 듭니다. OpenAI의 추가 정보 없이는 정확한 연구 비용을 알 수 없지만, 전문가들은 최종 모델 학습 비용의 1.5 ~ 5배 정도라고 추정했습니다.

이로 인해 연구 개발 비용은 1,150만 달러에서 2,760만 달러 사이가 될 것이고, 병렬 GPU의 오버헤드도 피할 수 없을 것입니다.

지난 5월에 발표한 75페이지 분량의 GPT-3 백서에서 OpenAI는 125만 개의 매개변수를 가진 “GPT-3 small”을 포함한 8가지 버전의 모델을 소개했습니다. 하지만 이러한 모델을 연구하고 개발하는 데 드는 비용은 위에서 한 계산에 포함하지 않습니다. 또한, OpenAI가 고용한 뛰어난 AI 인재에게 지불해야 하는 엄청난 급여 역시 제외했습니다.

GPT-3 백서에서 OpenAI가 소개한 8가지 버전의 언어 모델

GPT-3 실행 비용

많은 리서치 랩은 개발자가 신경망을 훈련할 때 겪는 고통과 필요한 비용을 덜어주기 위해 사전 훈련된  모델을 제공합니다. 이후 모델을 불러오고 실행할 수 있는 서버나 디바이스만 있으면 되며, 이는 처음부터 모델을 학습하는 것보다 훨씬 더 적은 컴퓨팅 리소스를 요구합니다.

하지만 GPT-3의 경우, 신경망의 크기가 너무 커서 실행 자체도 쉽지 않습니다. OpenAI의 백서에 따르면, GPT-3는 매개변수 당 16 비트에 해당하는 반정밀도(half precision) 부동 소수점 변수를 사용합니다. 즉 모델을 불러오고 적절한 속도로 추론을 실행하려면 모델에 최소 350GB의 VRAM(비디오 RAM, GPU에 필요한 정보를 보관하는 특수 유형의 RAM)이 필요한 것이죠.

이는 각각 32GB의 메모리를 가진 최소 11개의 Tesla V100 GPU에 해당합니다. V100 GPU가 개당 약 9천 달러라고 한다면, GPU 클러스터 비용이 최소 9만 9천 달러에서 RAM, CPU, SSD 드라이브 및 전원 공급 장치까지 포함하면 수천 달러 더 높아질 것입니다. 아마도 적절한 대안은 딥러닝 트레이닝 및 추론에 특화된 Nvidia의 DGX-1 서버일 것입니다. 약 13만 달러에 판매되는 DGX-1 서버는 VRAM(8x16GB)이 부족하긴 하지만, GPT-3의 견고한 성능을 보장할 수 있는 다른 모든 구성 요소를 갖추고 있습니다.

 

Lamda Labs의 Li는 AI 모델을 실행하는 데 필요한 메모리 요구 사항이 매개변수만의 함수가 아니라고 말했습니다. 이어서 그는 다음과 같이 설명했습니다.

“비록 GPT-3 관련 자세한 사항은 알 수 없지만, GPT-2를 참고해볼 수 있습니다. GPT-2 모델 중 345만 개의 매개변수를 가진 버전의 경우, 가중치를 단정밀도 부동 소수점 연산(FP32) 방식으로 저장하는 데 약 1.38GB 정도가 필요합니다. 하지만 텐서플로우에서 추론을 실행하려면 4.5GB의 VRAM이 필요합니다. 마찬가지로 774만 개 매개변수를 가진 버전은 가중치를 저장하는 데 3.09GB가 필요하지만, 추론을 하려면 8.5GB의 VRAM이 필요합니다.”

이런 로직에 따르면, GPT-3의 VRAM은 400GB 이상을 필요로 할 것입니다.

위에서 언급한 사실을 종합해보면, GPT-3 실행에 드는 하드웨어 비용은 다른 비용(전기, 냉각, 백업 등)을 고려하지 않는다고 했을 때, 10만 달러에서 15만 달러 사이로 예상됩니다.

만약 클라우드에서 실행하는 경우, GPT-3에는 8xTesla V100(32GB), 768GB RAM 및 96개의 CPU 코어가 포함된 AWS의 p3dn.24xlarge 인스턴스와 같은 것이 필요합니다. 이때 비용은 시간당 10 ~ 30달러 사이이며, 연간 비용은 최소 8만 7천 달러 이상이 될 것으로 보입니다.

다시 말하지만, OpenAI는 부유한 마이크로소프트와의 파트너십을 통해 훨씬 더 나은 이득을 취할 수 있는 상황입니다.

GPT-3 비즈니스 모델

지금까지 우리는 GPT-3의 개발 및 운영 비용에 대해 추측해 왔습니다. 이제 그것이 어떻게 수익성 높은 비즈니스로 바뀔 수 있는지 살펴보죠.

일반적으로 머신러닝 알고리즘은 협소하게 정의된 단일 작업을 수행할 수 있습니다. 다른 AI 분야보다 훨씬 복잡한 자연어 처리의 경우 특히 그렇습니다. 새로운 작업을 위해 머신러닝 모델의 용도를 변경하려면 처음부터 다시 학습시키거나 혹은 전이 학습(transfer learning) 프로세스를 통해 미세 조정(fine-tune)을 거쳐야 합니다.

하지만 다른 머신러닝 모델과 달리 GPT-3는 제로샷(zero-shot) 학습이 가능하여 새로운 학습 과정 필요 없이도 많은 새로운 작업을 수행할 수 있습니다. 다른 작업의 경우, 원샷(one-shot) 학습을 수행할 수 있습니다. 원샷 학습이란, 하나의 샘플 데이터를 통해 다른 유사한 작업까지 확장하여 수행하는 것을 의미합니다. 이론적으로 이는 AGI의 면모를 갖춘 것이며, 많은 새로운 애플리케이션을 지원하는 데 이상적입니다. 

이제 OpenAI가 고객에게 얼마나 많은 비용을 청구할 것이며, 누가 이를 감당할 수 있는지 볼까요? GPT-3에는 10만 개의 무료 토큰을 제공하는 무료 "Explore" 버전과 두 가지 유료 버전이 있습니다.

1. 생성 : 월 100달러, 토큰 2백만 개 + 추가 1,000 토큰 당 8센트

2. 빌드 : 월 400달러, 1,000만 토큰 + 추가 1,000 토큰 당 6센트

또한, OpenAI는 맞춤형 요금제를 원하는 사람들을 위해 "Scale" 티어를 제공하기도 합니다.

GPT-3 사용에 필요한 높은 비용으로 인해, GPT-3를 기반으로 진행되는 일부 비영리, 엔터테인먼트 및 과학 프로젝트는 곧 작업을 종료할 것이라고 선언한 상황입니다.

다양한 주제에 대한 텍스트를 생성하는 웹사이트이자 모바일 앱인 PhilosopherAI는 현재 요금제에 따른 서비스 운영 비용을 월 4,000달러 이상으로 예상해, 곧 유료로 전환할 것이라고 밝혔습니다.

하지만 PhilosopherAI의 프리미엄 버전이 애플리케이션의 트래픽과 사용량에 어떤 영향을 미칠지는 모릅니다.

AI Dungeon 역시 GPT-3를 사용함에 따라, 프리미엄 버전을 만들어 플레이어에게 매월 10달러를 청구할 예정입니다. 하지만 하드 코어 텍스트 기반 RPG 플레이어와 AI 괴짜들을 제외하고는 풍부한 그래픽과 화려한 플레이가 가능한 게임들이 존재하는 한 AI Dungeon을 더 이상 이용하려 하지 않을 것입니다.

AI Dungeon 요금제

GPT-3를 활용한 비즈니스 사례 중 하나는 텍스트 기반 콘텐츠 생성입니다. Subreddit 커뮤니티에 게시된 세부 정보에 따르면, OpenAI는 “Create” 티어에 포함된 2백만 개의 토큰은 "대략 3,000 페이지의 텍스트와 동일"하거나 약 150만 단어 정도라고 말했습니다.

우리는 이미 GPT-3가 작성한 좋은 아티클을 보았습니다. 대부분 사용자가 AI 모델에 동일한 쿼리를 여러 번 던지고 그중 하나를 편집하거나 각 결과의 가장 좋은 부분을 함께 연결한 것이죠. 예를 들어, 6개의 샘플이 있고 퀄리티 역시 모두 좋다고 가정해봅시다. 하나의 아티클(약 500 단어)이 최소 6페이지가 필요하다면, Create 티어의 경우 월간 약 500개의 아티클을 출력할 수 있는 것입니다.

하지만 한계 역시 분명히 존재합니다. 여러 실험에서 증명했듯이, GPT-3는 추론과 논리가 필요한 작업에 그다지 능숙하지 않습니다. 따라서 비교적 심오한 시사뉴스 콘텐츠를 주로 다루는 매체와 잡지는 GPT-3를 사용하지 않을 것입니다.

반면, 기업 블로그를 위한 SEO(search engine optimization)용 아티클을 작성하는 조직에는 GPT-3가 좋은 옵션이 될 수 있습니다. 그들은 GPT-3를 통해 초안을 작성하고 이후 사람 편집자가 마무리 작업을 하도록 할 것입니다. 하지만 웹에서 콘텐츠를 다시 수정하는 작업의 단가는 이미 매우 낮죠. 편집자가 이보다 더 낮은 가격으로 GPT-3의 결과물을 편집할 의향이 있는지에 대해선 여전히 회의적입니다. 

이외에도 AI 기반 창의성 툴 서비스를 제공하는 OthersideAI와 같이 GPT-3 기반의 비즈니스를 구축한 스타트업이 많이 있습니다. 회사의 공동 설립자이자 CEO인 Matt Shumer는 GPT-3 가격 책정이 그들의 비즈니스 모델에 적합하다고 말했습니다.

또 개인적으로 HTML 마크업 생성, 법률 문서 스캔 등 GPT-3가 실제로 실행 가능한 비즈니스 모델을 생성할지 여부에 관심이 갑니다.

전반적으로 OpenAI는 8자리 개발 비용과 5자리 월간 운영 비용을 수익으로 전환할 방법을  찾아야 합니다. 이는 비즈니스 모델을 운영하는 최소 수십 명의 사업 고객들이 필요함을 의미합니다.

자료 분석 결과, GPT-3 예비 가격 책정 계획은 OpenAI에 거의 6,000%의 수익 마진을 가져다줍니다. 따라서 OpenAI는 비용 부과를 포기할리 없으며, 회사들은 현재 비즈니스 계획으로 고객을 유치하지 못할 경우 많은 조정이 필요할 것입니다.

미세 조정, 모델 붕괴 및 기타 미해결 문제

우리는 다른 AI 알고리즘들이 이미 상당한 영향력을 행사하고 있는 분야에서 GPT-3가 어떻게 작동할지 지켜봐야 합니다. 예를 들어, 다양한 규칙 기반 알고리즘 및 딥러닝 모델을 바탕으로 자동 쿼리를 처리하는 고객 서비스 챗봇이 있다고 합시다. GPT-3의 일반화 기능이 의료 챗봇과 같은 전문 분야에서 문제를 일으키는지, 성능이 더 좋다고 한다면 고객이 GPT-3로 전환하도록 설득할 만큼 효과적인지, 가격은 현재 개발된 기술과 비교해서 어떤지 등 여러 사항을 확인해야 하는 것이죠.

앞으로 몇 달 안에 이러한 질문에 대한 답을 얻을 수 있을 것입니다.

이번 달 초에 공개된 가격 책정 계획에서 언급된 또 다른 흥미로운 점은 모델을 미세 조정할 수 있는 옵션이며, 이는 Scale 티어만 사용 가능합니다. 이는 이미 OpenAI 팀이 GPT-3가 일부 특수 케이스에는 적합하지 않다는 것을 인정한 것이죠. 하지만 “미세 조정”이 무엇을 의미하는지 알아야 합니다. 자체 클라우드 서버 인스턴스에 배포되고 특수 목적을 위해 재학습된 별도의 모델인가요? 그렇다면 많은 비용이 필요하며, 대부분의 비즈니스 고객들은 감당할 수 없습니다. 더 저렴한 옵션은 OpenAI가 새로운 애플리케이션을 위해 더 작은 GPT-3 모델 중 하나를 재학습하는 것입니다.

OpenAI는 고객 서비스, 마케팅, 제품 관리, 윤리 및 법적 문제, 보안 및 개인 정보 보호 등과 같은 다른 비즈니스 비용도 고려해야 합니다. 지금까지 OpenAI는 멋진 기술을 개발하는 연구실이었습니다. GPT-3에 대해 사용자에게 비용을 청구하기 시작하면 곧바로 일정 수준의 신뢰를 제공하고 책임을 져야 합니다.

마지막으로, GPT-3 관련 사항 중 사람들 눈에 띄지 않은 한 가지는 모델 붕괴(model decay)입니다. 모든 상호 작용에 대해 끊임없이 학습하고 조정하는 사람과 달리, 대부분의 딥러닝 모델은 정적입니다. 모델은 한 번 훈련을 받은 다음 매개변수 설정에 따른 작업을 수행합니다. 모든 학습 데이터는 일정 기간이 지나면 더 이상 현실 세계를 제대로 표현하지 못해 수정되어야 합니다. 결국 재학습이 이루어져야 하는 것이죠. 일례로, 이전의 많은 얼굴 인식 알고리즘은 마스크를 쓴 사람을 인식하도록 학습하지 않았고, 사람들이 마스크를 착용하기 시작하자 인식에 실패했습니다.

특히 사람의 언어는 세상이 발전함에 따라 끊임없이 변화하여 모델 붕괴는 일반 언어 모델에서 매우 중요한 이슈입니다.

예를 들어, 오늘날 전 세계 모든 사람들이 “폐쇄”, “사회적 거리두기 규칙”, “대 유행병” 등을 외칠 때, 코로나19 바이러스 발병에 대해 이야기하고 있음을 알 수 있습니다. 하지만 코로나19 바이러스 발생 전의 훈련 데이터를 학습한 GPT-3는 이러한 개념을 추상적이고 일반적인 형태로 취급할 뿐입니다. 시험 삼아 코로나19 바이러스에 대한 직접적 언급 없이 위 주제에 대해 GPT-3에게 질문해 보았고, 그 결과 흥미롭지만 주제를 벗어난 답변을 얻었습니다.

GPT-3는 “사회적 거리두기 규칙”에 대해 다양한 해석을 가지고 있지만 코로나19 바이러스 유행 관련 맥락의 답변은 없습니다.

사용자의 새로운 피드백으로 매개변수를 재조정하는 온라인 딥러닝 모델이 있습니다. 하지만 역전파 및 매개변수 조정의 계산 비용이 많이 들어 GPT-3를 온라인 딥러닝 모델로 배포할 가능성은 크지 않습니다.

따라서 OpenAI가 다양한 분야의 작업 수행에 적합한 AI 모델을 최신 상태로 유지하기 위해 GPT-3를 재학습하는 빈도와 비용을 확인할 필요가 있겠습니다.

새로운 AI 경제의 시작?

GPT-3가 비즈니스 플랫폼으로 어떻게 운영될지 매우 궁금합니다. 반짝이는 새 모델과 실질적으로 작동되는 모델 사이에는 큰 차이가 있습니다. GPT-3는 확실히 모든 사람들을 놀라게 했지만, 여전히 머신러닝 비즈니스 테스트를 통과해야 하는 것입니다.

GPT-3가 비즈니스 모델로써 제대로 작동한다면, 클라우드 컴퓨팅에 맞먹는 거대한 영향을 미칠 수 있습니다. 그렇지 않다면 사람 수준의 AI라는 목표를 이루기 위해 수익화가 절실한 OpenAI에 큰 좌절을 안겨줄 것입니다.  

참고 원문: https://bdtechtalks.com/2020/09/21/gpt-3-economy-business-model/

728x90
반응형