드디어 찾아온 스토리텔링의 특이점

[김우정의 호모 프롬프트]

오픈AI 새로운 서비스 '소라'의 등장…영상까지 영역 넓힌 AI
텍스트 프롬프트 기반 비디오 생성 모델로 1분 길이 영상 뚝딱
AI로 만든 영상, 영화에도 등장, 눈에 불 키고 모델 개발하는 기업들

오픈AI의 새로운 영상 생성 모델 소라(SORA)로 만든 영상. 사진=OpenAI 홈페이지 캡쳐

더피알=김우정 | 불과 14개월 전 시작된 생성형 인공지능 전쟁에 또 한 번의 특이점이 찾아왔습니다.

2월 15일 오픈AI가 텍스트 프롬프트를 기반으로 영상을 생성하는 소라(SORA)라는 비디오 생성 툴을 공개했습니다. 소라는 텍스트를 입력하면 최대 1분 길이의 동영상을 만들어줍니다. 오픈AI는 공식 블로그를 통해 소라의 특징과 차별점 및 향후 개발 방향, 그리고 약점에 대해서도 상세하게 소개했습니다.

소라는 텍스트 프롬프트를 기반으로 영상을 생성하는 AI 비디오 생성기입니다. 이전의 AI 비디오 생성기보다 더 복잡하고 현실적인 장면을 생성할 수 있습니다. 하지만 현재 모델에는 약점이 있습니다. 복잡한 장면의 물리학을 정확하게 시뮬레이션하는 데 어려움을 겪을 수 있으며, 원인과 결과의 특정 사례를 이해하지 못할 수도 있습니다. 예를 들어 어떤 사람이 쿠키를 한입 베어 물었지만 나중에 쿠키에 물린 자국이 없을 수도 있습니다. 모델은 또한 왼쪽과 오른쪽을 혼합하는 등 프롬프트의 공간적 세부 사항을 혼동할 수 있으며, 특정 카메라 궤적을 따르는 것과 같이 시간이 지남에 따라 발생하는 이벤트에 대한 정확한 설명에 어려움을 겪을 수 있습니다.

소라는 이러한 약점이 있음에도 다양한 장르와 스타일의 영상을 사람과 구별하기 어려운 수준으로 생성할 수 있습니다. 또한 여러 캐릭터, 특정 유형의 동작, 피사체와 배경의 정확한 세부 정보로 복잡한 장면을 생성할 수 있습니다.

소라는 프롬프트에서 사용자가 요청한 내용뿐만 아니라 이러한 내용이 실제 세계에 어떻게 존재하는지 이해하고 있다고 합니다. 블로그에 공개된 아래 영상은 다음의 프롬프트로 제작되었습니다. (독자들의 편의를 위해 번역된 프롬프트와 링크를 소개합니다)

드론 카메라가 아말피 해안(Amalfi Coast)을 따라 있는 암석 노두 위에 세워진 아름답고 유서 깊은 교회 주위를 돌고 있습니다. 전망은 역사적이고 장엄한 건축학적 세부 사항과 계단식 통로 및 파티오를 보여줍니다. 전망이 아말피 해안을 내려다보면서 아래 바위에 부딪히는 파도가 보입니다. 이탈리아 아말피 해안의 바다와 언덕이 많은 풍경, 멀리 있는 몇몇 사람들이 아름다운 바다 전망이 있는 파티오에서 산책하고 경치를 즐기는 모습이 보이고, 오후 태양의 따뜻한 빛이 현장에 마술적이고 낭만적인 느낌을 만들어냅니다. 이 놀라운 전망을 아름다운 사진으로 담았습니다.

글을 쓸 수 있다면 이제 누구나 영상을 만들 수 있는 시대가 도래했습니다. 요즘 소셜 미디어와 블로그를 보면 인공지능으로 생성된 이미지를 쉽게 찾아볼 수 있습니다. 곧 동영상도 그렇게 볼 수 있을 것입니다.

하지만 천지개벽처럼 하루아침에 찾아온 이 변화도 사실 꽤 오랜 역사를 가지고 있습니다.

무한으로, 그리고 그 너머로 (To infinity and beyond)

- 영화 '토이스토리' 대사 中

빠르게 살펴보는 비디오 인공지능의 역사

생성형 인공지능은 앨런 뉴얼과 허버트 사이먼의 연구에서 그 뿌리를 찾을 수 있습니다.

두 인공지능 개척자는 인간의 문제를 해결하기 위해 인공지능 연구에 몰두했습니다. 그들 연구의 본질은 인간의 사고 과정과 의사결정 메커니즘을 이해하고, 이를 컴퓨터에 모방하는 것이었습니다.

뉴얼과 사이먼은 협업을 통해 인공지능 연구의 중요한 발전을 이루었습니다. 그들은 ‘통합 인지 이론’과 ‘Soar’라는 인지 아키텍처를 개발하여 인간의 사고방식을 모방하는 인공지능 시스템의 기반을 마련했습니다. 그들이 1975년 수상한 튜링 상은 컴퓨터 과학 분야에서 최고의 영예로 여깁니다.

그들 이후 생성형 인공지능은 1980년대에 이르러 큰 관심을 받기 시작했습니다. 이 시기에는 인공지능이 모든 문제를 해결할 수 있을 것이라는 기대감이 높아졌습니다.

기업들은 인공지능 기술을 이용한 제품과 서비스를 출시하기 시작했습니다. 이에 따라 인공지능 관련 기업들의 주가가 크게 상승했습니다.

하지만 이러한 기대감은 과도한 것이었습니다. 인공지능 기술은 생각만큼 빠르게 발전하지 않았고, 기업들이 출시한 제품과 서비스는 기대에 미치지 못했습니다. 이로 인해 인공지능 관련 기업들의 주가가 하락하고, 많은 기업이 파산했습니다. 이는 인공지능 분야의 침체기를 가져왔습니다. 첫 번째 인공지능 버블입니다.

텍스트로부터 영상을 생성하는 기술은 1990년대부터 연구되기 시작했습니다. 초기 연구는 단순한 텍스트 애니메이션 제작에 초점을 맞췄지만, 딥러닝 기술의 발전과 함께 점점 더 사실적인 영상을 생성할 수 있게 되었습니다. 이제 전 세계가 알고 있는 OTT 스트리밍 기업 넷플릭스도 이 시기에 태동합니다.

그리고 꽤 오랜 시간이 흐른 2016년, 구글은 딥드림(Deep Dream)이라는 딥러닝 모델을 공개합니다. 딥드림은 이미지를 분석하여 새로운 이미지를 생성하는 모델입니다. 이 모델은 텍스트를 기반으로 영상을 생성하는 데도 활용될 수 있어, 텍스트 기반 영상 생성 분야의 새로운 가능성을 열었습니다.

2022년 오픈AI는 ‘DALL-E’(이하 달이)라는 이미지 크리에이터 모델을 공개합니다. 달이는 텍스트 프롬프트를 기반으로 사실적인 이미지를 생성하는 모델입니다.

달이와 경쟁 중인 ‘미드저니’와 ‘스테이블 디퓨전’ 등의 모델은 놀라운 수준의 사실성을 가진 이미지를 생성할 수 있으며, 텍스트 기반 영상 생성 분야에서 큰 화제가 되었습니다. 그리고 인공지능으로 만든 영상이 세계적인 영화에 등장하며 화제가 됩니다.

모든 곳에서 모든 것을 한 번에

2023년 오스카 시상식에서 최우수 작품상을 포함해 7관왕에 오른 영화 ‘에브리씽 에브리웨어 올 앳 원스’(Everything Everywhere All at Once)의 두 돌멩이가 대화하는 명장면은 인공지능 기업 런웨이(Runway)의 그린스크린 기능을 활용한 것입니다.

런웨이는 2018년에 설립된 생성형 비디오 인공지능 기업입니다. 이 회사는 자체 개발한 인공지능 모델인 ‘Gen-1’과 ‘Gen-2’를 기반으로 다양한 영상 제작 도구를 제공합니다. Gen-1은 텍스트 프롬프트를 기반으로 이미지를 생성하는 모델이고, Gen-2는 이미지와 텍스트를 함께 활용하여 더욱 사실적인 이미지와 영상을 생성하는 모델입니다.

영화 ‘에브리씽 에브리웨어 올 앳 원스’에서는 인공지능 기업 런웨이의 그린스크린 기능을 이용해 돌맹이가 대화하는 장면을 만들어냈다. 사진=Runway

사실 텍스트 기반 비디오 생성 인공지능의 경우, 2022년 이미 메타의 메이크업 비디오나 구글의 페나키 등이 먼저 나왔지만 일반인은 사용할 수 없었습니다.

하지만 런웨이는 Gen-1을 구독자들이 직접 사용할 수 있도록 상용화했고, 가입만 하면 베타 버전으로 3초 분량의 동영상을 직접 만들어볼 수 있습니다. 그리고 2023년 3월 출시한 Gen-2는 기존 모델을 멀티모델로 업그레이드해서 드디어 텍스트만으로도 영상을 만들 수 있게 되었습니다.

런웨이는 2022년 12월 약 659억 원의 투자 유치에 성공하며 5억 달러의 기업 가치를 인정받았고, 2023년 구글과 엔비디아, 세일즈포스 등 미국 빅테크 기업으로부터 1억4100만 달러(약 1860억 원) 규모의 투자를 유치했습니다. 런웨이의 기업 가치는 현재 약 15억 달러(약 1조9700억 원)입니다.

호모 디렉투스, 감독하는 인간의 시대

텍스트를 기반으로 한 비디오 생성 기술은 영화, 광고, 교육 콘텐츠 및 개인적 용도로까지 다양한 분야에서 널리 사용될 것입니다.

인공지능은 이제 복잡한 시나리오를 해석하고, 이를 기반으로 상호작용하는 캐릭터와 함께 일관된 내러티브를 가진 비디오까지 만들어낼 수 있습니다. 영상을 만드는 인간의 기술은 크게 바뀔 수밖에 없습니다.

그럼에도 불구하고 생성형 인공지능이 제작하는 비디오는 여전히 인간의 창의적 개입과 감독이 필요합니다.

인공지능은 텍스트의 직접적인 해석을 통해 비디오를 생성할 수 있지만, 인간의 창의성, 복잡한 감정의 미묘함, 예술적 판단을 완벽히 모방하기는 어렵습니다. 인간이 감독하고 인공지능이 만드는 협업이 필수적이겠죠.

이제 모든 인간은 감독이 되어야 합니다. 영화감독은 영화의 모든 과정을 알고 있는 사람이고, 마찬가지로 야구 감독은 야구의 전체를 꿰뚫고 있는 사람이죠.

인간의 지식과 기술은 인공지능을 결코 넘어설 수 없을 겁니다. 하지만 인간이 가진 인간에 대한 믿음은 꽤 오랜 시간 변하지 않겠죠. 그 믿음이 존재하는 순간까지는 감독하는 인간, 호모 디렉투스(Homo Directus)의 시대입니다.

인공지능을 공부하세요. 그리고 감독의 역할도 공부하세요. 앞으로 어떤 생성형 인공지능 모델이 탄생해도 감독은 인간일 테니까요.

우리는 전 세계의 정책 입안자, 교육자 및 예술가를 참여시켜 그들의 우려 사항을 이해하고 이 신기술에 대한 긍정적인 사용 사례를 식별할 것입니다. 광범위한 연구와 테스트에도 불구하고 우리는 사람들이 우리 기술을 사용하는 유익한 방법이나 이를 남용하는 방법을 모두 예측할 수는 없습니다. 우리가 실제 사용을 통해 배우는 것이, 시간이 지남에 따라 더 안전한 AI 시스템을 만들고 출시하는 데 중요한 구성 요소라고 믿는 이유입니다. - 소라의 안전에 관한 소개글 中

세상의 모든 길은 인공지능으로 통하고 있습니다. 생성 인공지능 기술은 이미 우리 사회의 모든 분야에 산소처럼 스며들었죠. 김우정의 ‘호모 프롬프트’는 생성 인공지능의 기술 발전상을 심층 분석하여 사회적 영향과 인간과의 상호작용 및 실무에 적용하는 인사이트를 쉽게 전달하고자 합니다. 본 연재는 필자가 직접 개발한 칼럼 챗봇 ‘Insightful Columnist’를 통해 작성됩니다. 필자의 챗봇은 사용자의 글쓰기 스타일에서 영감을 받아 다양한 주제에 대한 통찰력 있는 칼럼을 제공하기 위한 목적으로 개발되었습니다. [편집자 주]

김우정글로벌 PR펌 벡터그룹(Vector Group) 한국지사 수석 컨설턴트. 본업인 마케팅 기획 외에 휴리스틱 기반 스토리텔링을 하며 OTT미디어랩 수석 디렉터로도 일하고 있다. 영화와 시리즈 등 스토리를 만드는 기획자이자 OTT 캐스터로 활동 중. 다른기사 보기