‘연출’ 통해 사랑과 유머까지 갖춘 버추얼휴먼 구현
지난 설 때 tvN에서 방송된 ‘전원일기’ 출연진과 ‘응삼이’ 배우 고 박윤배씨의 재회는 미래에 등장할 초고도 인공지능(AI) 버추얼휴먼(가상인간), 또는 휴머노이드(인간을 닮은 로봇)가 어떤 모습일지를 매우 인상적으로 보여준 이벤트다. 고인의 얼굴을 3D 실사로 복제해 활성화시킨 응삼이 버추얼휴먼은 마치 하늘나라에서 지상의 친구들을 만나기 위해 잠시 환생해 내려온 것 같은 느낌까지 줬다. 자아를 가진 듯한 버추얼휴먼과의 만남에 적잖은 시청자들도 반가움과 함께 왠지 생경하고 무섭기까지 하다는 반응을 보인 이유이기도 하다.
하지만 응삼이 버추얼휴먼은 재회한 배우 동료들과 대화를 시작하면서 이내 동료들은 물론, 시청자들도 처음의 불편함을 잊고 그걸 고인이 되기 전 응삼이를 다시 만난 것 같은 자연스러운 분위기를 만들어냈다. 버추얼휴먼은 화면 속의 자신을 바라보며 “나, 누군지 알겠어…?”라며 여전히 긴가민가하는 김수미씨에게 푸근한 미소를 던졌다. 이어 강원도의 순박한 사투리가 섞인 ‘응삼이’ 말투로 “아이구, 일용엄니를 왜 몰라유” 하고 화답해 좌중을 단숨에 따뜻한 온기로 채웠다.
그뿐만이 아니다. 감정을 생생하게 드러내는 표정, 생전의 어조가 고스란히 살아 있는 목소리, 사랑과 유머가 담긴 실시간 대화 등 응삼이 버추얼휴먼은 지금까지 등장한 어떤 유사 버추얼휴먼에 비해서도 월등한 수준의 퍼포먼스를 보여줬다. 방송이 나간 후 수많은 매체들이 AI기술을 활용한 디지털휴먼으로 고인을 기적처럼 복원해냈다는 찬사를 보낸 이유이기도 하다.
하지만 정작 테크니션이 아닌 기획자로서 응삼이 버추얼휴먼을 구현한 빔스튜디오의 정영범 대표는 “이번 응삼이 버추얼휴먼은 본질적으론 아직 ‘딥페이크(Deepfake)’에 실시간 인터랙션 솔루션을 결합시킨 ‘깜짝 이벤트’ 수준에 불과하다”며 “다만 이번 이벤트에서 응삼이 버추얼휴먼을 생생하게 구현하기 위해 가동한 연출요소들은 앞으로 초고도 AI 버추얼휴먼이나 AI 로봇을 개발하는 데 있어서 어떤 기술들이 더 필요하고 어떻게 발전해 나가야 할지를 내다보는 이정표가 될 수 있다고 본다”고 말했다.
■ ‘응삼이’ 버추얼휴먼 어떻게 연출됐나
1. 섀도 액터(shadow actor)
"'응삼이' 대신해 실시간 대화, 몸짓 등 연기"
스티븐 스필버그 감독의 2001년 명작 영화 ‘A.I’의 주인공인 ‘데이비드’는 작품 속에서 비록 어린이지만 인간 수준의 자아를 갖춘 최초의 인조인간이다. 영화의 배경은 미래이고 이미 수많은 인조인간이 개발돼 다양하게 쓰이고 있지만, 아직 그 어떤 인조인간도 기능적 사고를 넘어 자아를 갖는 수준에 이르지는 못했다. 자아를 갖는 AI여야만 사랑하고 미워하며, 꿈과 가치를 추구할 수 있다.
이번 응삼이 버추얼휴먼은 그동안 SF 영화에서나 볼 수 있었던 자아를 가진 AI의 모습을 보여줬다. 김수미씨와의 대화에 담긴 너스레와 정겨움, ‘일용이’ 배우 박은수씨가 부르자 “누가 불렀어, 은수 형!” 하고 반가움의 감정을 듬뿍 담아 답하는 모습 등은 대수롭지 않아 보일 수도 있다. 하지만 AI 기술면에선 감정의 주체로서 자아가 생생히 작동하는 듯한 매우 주목할 만한 장면들이다.
현존 AI 기술은 인간의 질문에 대해 논리적으로 정보를 조합해 문장으로 제시하는 대화형 ‘챗봇’이 고작이다. 자아를 갖추고 감정을 가질 수 있는 AI 개발은 아직 멀었다는 얘기다. 따라서 이번 이벤트에선 응삼이, 또는 고 박윤배라는 확고한 자아를 가진 버추얼휴먼을 구현하기 위해 ‘섀도 액터(shadow actor)’를 활용한 ‘연출’을 시도했다는 게 핵심 포인트다.
섀도 액터는 현재 버추얼휴먼 기술이 미흡한 상황에서 원활한 대화와 감정표현을 구현하기 위해 버추얼휴먼의 자아와 감정, 대화를 버추얼휴먼 대신 연기해 주는 배우다. 섀도 액터는 응삼이 버추얼휴먼이 등장하는 모니터와 연결된 이면의 연출공간에서 응삼이의 대화와 몸짓을 연기했다. 연출 카메라는 섀도 액터의 연기를 촬영한 영상소스를 배우 고 박윤배씨의 생전 동영상 등 다양한 ‘딥러닝(Deep Learning)’ 정보가 처리된 컴퓨터로 전송해 대화 상황에 맞는 버추얼휴먼의 최적 반응 모습을 구현하는 과정에 들어가도록 했다.
섀도 액터를 쓰지 않는 진정한 의미의 존재 독립적인 버추얼휴먼을 경제적으로 개발하기 위해서는 이번 응삼이 구현에 쓰인 양보다 100배, 1,000배 많은 딥러닝 자료가 투입돼야 하고, 챗봇보다도 한 차원 높은 딥러닝 기술이 필요하다는 게 정 대표의 얘기다.
2. 인물 모델링
"버추얼휴먼 '불편한 골짜기' 극복이 관건…온기와 생기 살리는 데 주력"
버추얼휴먼 구현과정엔 ‘불편한 골짜기(Uncanny Valley)’가 존재한다. 컴퓨터그래픽(CG)으로 아무리 정교하게 인물을 3D로 모델링해 형상화해도 왠지 생기가 느껴지지 않고 마치 좀비를 보는 듯한 불편함과 생경함이 느껴지는 현상을 말한다. 정 대표는 “응삼이 버추얼휴먼 연출에서 가장 신경을 쓴 부분은 실사로 고 박윤배씨의 얼굴을 재현하는 부분이었다”며 “지금까지 등장한 거의 모든 실사방식의 버추얼휴먼이 ‘불편한 골짜기’를 극복하지 못했던 점을 감안해 생기와 온기가 감도는 고인의 얼굴을 모델링하는 데 가장 많은 노력을 투입했다”고 말했다. 이를 위해 미국 할리우드에 진출한 한국 출신 모델러를 기용했다. 아울러 3D 그래픽으로 얼굴 모델링을 함에 있어 다양한 얼굴 각도와 표정에서 최적의 공간좌표를 딥러닝 프로그램을 통해 버추얼휴먼에 적용하는 데 주력하고, 생생한 움직임을 구현하는 데 힘을 쏟았다.
하지만 응삼이 버추얼휴먼도 처음엔 김수미씨가 “무섭다”고 할 정도로 ‘불편한 골짜기’ 현상이 나타났다. 그걸 해소한 건 역시 실시간 대화와 섀도 액터를 통해 구현된 버추얼휴먼의 감정과 생기였다고 정 대표는 말했다. 따라서 앞으로 더욱 진화한 버추얼휴먼이나 AI 휴머노이드가 나와도 ‘불편한 골짜기’의 극복은 인간과의 실시간 인터랙션과 감정의 교류 등을 통해 친밀감이 증진돼야 효과적으로 해소될 것이라고 내다봤다.
3. 목소리 구현
"생생한 어조·감정 살리려 AI 음성 생성 대신 음성 필터링 선택"
AI 기술을 활용해 이미지나 음성을 복제하고 생성하는 다양한 솔루션들이 이미 나와 있다. 최근 챗GPT를 선보이며 공전의 관심을 모으고 있는 미국 오픈에이아이(Open AI)가 내놓은 ‘달리(DALL-E)’는 이미지 생성 솔루션으로 첨단 수준이고, 지난 1월 마이크로소프트(MS)가 출시한 ‘발리(VALL-E)’는 단 3초의 녹음소스만 있으면 음성과 감정, 어조까지 고스란히 복제해 내는 최신 음성 생성 솔루션이다.
하지만 이번 응삼이 버추얼휴먼은 AI 음성 생성 솔루션 대신 섀도 액터의 음성을 필터링해 응삼이의 목소리를 구현했다. 필터링은 섀도 액터의 음성에 응삼이 목소리를 학습시킨 필터링 솔루션을 적용해 응삼이 목소리를 덧입히는 방식이다. 이벤트 준비 기간이 2개월여로 비교적 짧기 때문이기도 했지만, 섀도 액터의 어조를 최대한 살려 응삼이 버추얼휴먼의 대화에 더욱 생생한 느낌을 주기 위한 포석이기도 했다는 설명이다.
4. 실시간 인터랙션
"버추얼휴먼 '반응지체' 없애는 게 관건…섀도 액터 기용으로 해결"
이번 응삼이 버추얼휴먼 이벤트에서 가장 돋보였던 부분은 ‘전원일기’ 출연 동료들과의 실시간 인터랙션이었다. 지금까지 수많은 버추얼휴먼 아이돌 가수, 유튜브 인플루언서, 아나운서 등이 등장했지만, 어떤 경우도 이번만큼 장시간 인간과 즉흥적인 대화와 다양한 감정교류가 이어지는 인터랙션을 보여주지는 못했다.
챗GPT만 해도 질의 대화를 던진 뒤 어느 정도 지나 답변 대화나 문장이 제시되는 것처럼, AI와 인간과의 인터랙션은 정보처리 과정 때문에 어느 정도 ‘반응지체’가 발생할 수밖에 없다. 하지만 단 5초의 반응지체에도 실시간 인터랙션의 느낌은 크게 떨어질 수밖에 없다. 응삼이 버추얼휴먼은 섀도 액터를 기용함으로써 비록 ‘연출’이지만 대화와 몸짓, 생생한 감정이 교류되는 실시간 인터랙션의 가능태를 잘 구현했다. 빔스튜디오는 이번 이벤트에서 응삼이 버추얼휴먼의 대답 반응지체를 최소화하기 위해 실시간 예상 대화 시나리오를 별도 적용했다고 밝혔다. 정 대표는 “AI 버추얼휴먼이나 다른 AI 휴머노이드가 자체적인 반응으로 인간과 인터랙션을 자연스럽게 진행하려면 지금보다 훨씬 고도화한 정보처리장치가 필요할 것”이라며 “그 기간은 결코 짧지 않을 것”이라고 말했다.
■ 버추얼휴먼 어떻게 발전할까
‘AI 딥러닝’ ‘3D 모델링’ ‘고해상도’ 등 진전 빨라
버추얼휴먼, 게임ㆍ챗봇ㆍAI로봇 등 개발에 시너지 낼 것
정 대표는 “버추얼휴먼은 당분간 딥페이크 수준에서 다양한 활용 가능성을 시험받게 될 것”이라며 “그런 활용 모색과정에서 관련 기술들도 점차 고도화할 것”이라고 내다봤다. AI 기술을 활용한 딥러닝 프로세싱 발전은 모든 기술적 진화의 토대로서 비약적인 발전궤도에 오를 가능성이 크다. 버추얼휴먼도 용도별로 다각적인 기술발전이 진행될 것이다. 버추얼휴먼 아이돌 가수들의 경우, 생생한 공연을 위해 3D 모델링과 해상도 개선, 좀 더 생동감 있는 동작 연출을 위한 모션캡처(배우의 물리적 움직임을 캡처한 다음 디지털 캐릭터 모델에서 다시 생성하는 프로세스) 기술의 발전 등이 예상된다.
AI 발전과 버추얼휴먼 관련 기술의 발전은 여타 유관 산업에도 시너지를 일으킬 것이 분명하다. 당장 버추얼휴먼 분야만 해도 평면 모니터에 등장하는 3D 모델링 방식에 이어 홀로그램 버추얼휴먼의 등장도 머지않은 것으로 업계는 내다본다. 인터랙션 기술의 진화는 게임과 실감콘텐츠, AI로봇 개발에도 기술적 상호작용을 일으킬 게 분명하다.
하지만 버추얼휴먼을 구현하는 기술 발전과 함께, 그걸 어떻게 활용하고 부작용 없이 쓸 것인가에 관한 기획 또한 중요하다. 정 대표는 “나는 사실 기술자가 아니라 트랜스미디어 기획자, 또는 연출자”라며 “응삼이 버추얼휴먼도 새로운 첨단 기술을 개발한 게 아니라, 버추얼휴먼의 활용 영역으로 ‘추억과의 대화’를 시도해 본 셈”이라고 말했다.
기사 URL이 복사되었습니다.
댓글0