[AI 챗봇] 챗GPT는 영화감독이 될 수 있나요?

영화감독 스탠리 큐브릭은 반복해서 찍기로 악명이 높았다. 영화 〈샤이닝〉 촬영 당시 69세였던 배우 스캣맨 크로더스는 7분짜리 연기를 무려 148번 했다고 한다. 7분짜리 장면에 대략 17시간 30분을 쓴 셈이다.¹ 심지어 주연배우 잭 니콜슨은 같은 장면만 200번 가까이 찍기도 했다는 소문이 돌았다. 큐브릭은 이러한 루머에 억울했는지, “만일 내가 모든 신을 100테이크 넘게 촬영해서 완성한다면 아마 나는 평생토록 한 편의 영화 제작도 끝마치지 못할 것이다”라고 롤링스톤지와의 인터뷰에서 밝혔다.²

스탠리 큐브릭감독은 148번의 촬영 때마다 어떠한 적절한 설명으로 배우를 이해시켰을까? 인간의 행위는 객관적으로 설명할 수 없는 주관적인 요소가 다분하다. 최근까지 우리는 이런 애매한 인간의 행동을 기계와 다른 점이라고 정의했다. 그러나 챗GPT라는 인간의 애매함을 이해하고 있는 듯한 인문학적인(?) 인공지능이 출현하면서부터 생각은 달라지고 있다. 인공지능이 영화감독이 될 수 있느냐는 질문이 나오면 작년 초까지만 해도 거의 부정했을 것이다. 하지만 최근의 분위기는 확실히 다르다. 필자는 돌아갈 것 없이 챗GPT에게 직접 질문했다.

‘인공지능은 영화감독이 될 수 있나요?’ 챗GPT에게 질문 했고 대답은 이렇다. “이론적in theory으로는 그렇습니다. AI는 카메라 각도camera angles, 조명, 사운드와 같은 영화 제작의 기본 사항을 이해하도록 프로그래밍할 수 있습니다. 그런 다음 특정 유형의 장면scenes을 인식recognize하고 적절한 기술appropriate techniques을 적용하여 영화를 만들도록 프로그래밍할 수 있습니다. 그러나 AI가 진정 독특하고 예술적인 영화를 단시간 내에 만들 수 있을 것 같지는 않습니다. 영화 제작의 진정한 기술art은 이야기를 전달하고 감정emotions을 전달하고 (감성적인) 분위기atmosphere를 만드는 감독의 능력에 있습니다. 이것은 AI 기술AI technology이 아직 할 수 없는 것입니다.”

필자는 공학도의 한계인지 인공지능의 답변에 불만이 생겼다. 감정과 분위기는 정말 만들 수 없는 것인가? 사실 감정을 정의하기는 너무나 어려운 문제이다. 많은 철학자 학자들이 감정을 이야기했지만 불충분한 것이 사실이다. 다시 감정과 분위기에 관하여 인공지능에게 물었다. ‘감정emotions은 무엇입니까?’ 챗GPT의 대답은 이렇다. “감정은 특정 사건, 상황 또는 사람에 대한 반응으로 경험하는 정신적, 생리적 상태mental and physiological states입니다. 종종 심박수 증가, 발한, 아드레날린 쇄도rush와 같은 생리적 변화를 동반합니다. 기쁨, 행복과 같은 긍정적인 감정부터 슬픔, 분노와 같은 부정적인 감정까지 다양합니다.”

‘영화적 분위기는 무엇을 의미합니까?’ “시네마틱 무드cinematic mood는 영상과 사운드의 결합으로 만들어지는 감성적인 분위기emotional atmosphere입니다. 특정 감정feelings을 불러일으키고 청중에게 원하는 감정적 반응을 생성하는 데 사용됩니다.”³

인공지능은 생물학적 존재가 아니기 때문에 감정을 유발하는 생리적 반응이 있을 수 없다. 다만 비슷하게 흉내는 낼 수 있다. 철학자 라캉은 어린아이가 거울에 비친 자신의 모습을 보고, 이에 동일시하면서 자아가 구성된다고 말한다. 물론 이 전제는 생물학적 인간이라는 것이지만 인공지능이 인간 흉내를 내면 유사한 자아가 만들어질 수도 있다.

여기서 챗GPT와 같은 초거대 AI의 원리에 대해 짚고 넘어가 보자. 복권을 사면 1등 당첨 확률은 매우 낮다. 물론 아주 소수가 당첨되지만 확률로 보면 무의미할 정도이다. 인공지능이 하는 베이지안 추론Bayes’ inference은 새로운 데이터가 들어오면 사전 확률priorprobability을, 즉 복권을 사서 돈을 잃을 확률을 업데이트하여 사후 확률posterior probability을 계산하는 방법이다. 결과는 사후 확률에 1등 당첨 같은 극적인 사건이 없다면 처음 설정한 확률이 맞을 것이다.

챗GPT가 대답을 잘하는 것은 첫 단어가 나오고 다음 단어를 베이지안 추론으로 맞히기를 잘 하기 때문이다. 어떻게 맞힐 수 있을까. 인간의 지식을 학습한 후 확률이 높은 단어를 배치하여 문장을 완성하는 것이다. 오늘도 인공지능은 인간이 만든 데이터를 대량으로 학습하고 있다. 쉬지 않고 주7일 24시간! 챗GPT보다 규모가 큰 구글의 초거대 언어 생성 AI 모델 바드Bard는 이 거대한 인공지능 모델 람다를 기반으로 한다. 사실 인공지능이 대부분의 특허는 구글이 가지고 있다, 챗GPT도 람다의 기술을 기반으로 하고 있다. 실시간 정보를 바탕으로 답하는 람다는 1,370억 개의 파라미터(매개변수)를 써서 대화를 익혔다. 구글은 또 한 단계 진보한 팜PaLM 모델을 발표하며 5,400억 개의 파라미터를 사용했다고 주장한다. 사람 뇌가 100조 개의 시냅스로 구성돼 있다고 하니 아직도 갈 길은 먼 셈이다.

여기서 전공자가 아니면 궁금증이 생길 것이다. 파라미터는 무엇인가. 파라미터를 번역하면 ‘매개변수’라는 의미를 지닌다, 가장 쉽게 설명해서 컴퓨터 시스템상의 작동에 영향을 미치는 외부로부터 투입되는 데이터라고 정의한다. 사람의 뇌로 치면 사고 과정에 관여하는 신경망 뉴런을 연결해주는 ‘시냅스synapse’에 해당한다. 시냅스가 있어야 뇌가 작동하듯 파라미터가 있어야 인공지능이 작동된다. 반드시는 아니지만 통상 파라미터 수가 많을수록 인공지능 성능이 뛰어나다.

이쯤 되면 인간과 너무 가까워지는 것 아니냐는 두려움이 생길 것이다. 인간이 된다는 것은 의식이 있는 독자적인 판단을 할 수 있어야 하는데 (의식이 없는) 생성형 인공지능은 자신이 무엇이 옳은지 그른지 판단할 수 없다. 가장 가능성 큰 다음 ‘단어’를 단어로 인식하는 것이 아니라 ‘디지털 토큰(데이터)’으로 인식할 뿐이다. 이것이 인간과의 결정적인 차이이다. 인공지능 비판론자들은 인공지능은 스마트한 장난감이라고 비웃기도 한다.

이런 비아냥거림에도 불구하고 인공지능으로 만든 음악 그림 영상을 접하면 놀랍다는 느낌을 지울 수 없다. 인공지능은 현재는 부족한 면은 있으나 조만간 스탠리 큐브릭를 비롯한 많은 뛰어난 감독의 연출 내용을 학습해서 확률적으로 대중이 가장 좋아하는 작품을 만들 수 있을 것이다. 특히 애니메이션에서는 탁월한 능력을 발휘할 것이다. 많은 영화가 서로의 영화를 일정 부분 표절하는 혼성모방을 해서 만들어지고 있다. 앞으로의 세상에서는 인공지능의 모방과 인간의 모방은 적어도 대중에게는 차이가 크지 않을 수 있다.

인간의 수많은 작품을 학습한 인공지능이 만든 영화가 독창적이고 창조적이라고 주장한다면 전면 부정할 수 있을까. 필자의 생각에는 쉽지 않을 것으로 본다. 인공지능이 영화감독이 될 수 있나요? 필자의 답은 충분하다는 것이다. 충분하다는 것이 위대함으로 연결될지는 알 수 없다. 인공지능시대에 인간의 예술에 대한 근원적인 질문을 던질 것이다. 인간만이 가지는 고유한 독창성이란 무엇인가.

1　https://blog.naver.com/cine_play/220951463096 손바닥 영화 매거진 《씨네플레이》의 공식 블로그

2 https://namu.wiki/w/%EC%83%A4%EC%9D%B4%EB%8B%9D(%EC%98%81%ED%99%94

3 https://platform.openai.com/

고진석 인공지능전문기업 텐스페이스 대표. 아이러브스쿨 기술이사를 역임했고, 현재 메타버스 전문기업 오썸피아 기술이사를 겸직 중이다. 저서로 『우리는 어떻게 프로그래밍 되었는가』『수학만점 프로세스』 등이 있다.

* 《쿨투라》 2023년 5월호(통권 107호) *

고진석(작가, 인공지능전문기업 텐스페이스 대표) 다른기사 보기