메타버스, 게임, 애니메이션 등 제작 환경 응용 가능한 AI 도구
3D 게임 개발 적용 방법 찾는다... 오픈월드 게임 '게임 체인저?'

페이스북과 인스타그램으로 유명한 IT 기업 메타(META)가 최근 새로운 인공지능(AI) 프레임워크를 공개했다. 일반 대화를 3D 전신 아바타로 만드는 기술로 메타버스와 게임, 애니메이션 제작에 응용 가능한 새로운 도구가 등장했다.

메타와 UC버클리 연구진이 함께 개발한 AI 프레임워크 ‘오디오투포토리얼(Audio2PhotoReal)’을 공개했다. 연구 보고서에 따르면 대화 중인 사람들의 음성을 AI 도구에 입력하면 자연스럽게 3D 아바타를 생성하는 것이다. 음성 오디오가 주어지면 사람의 얼굴, 몸, 손을 포함해 사람이 지을 법한 다양한 제스처 동작 가능성을 출력한다.

또한 해당 도구는 단순한 제스처가 아닌 비웃음과 능글맞은 웃음 등의 중요한 뉘앙스를 표현할 수 있도록 매우 사실적인 아바타를 사용한다. 대화의 맥락을 이해하고 조금 더 사실적이고 역동적인 표현을 보여주는 것이 특징이다.

해당 도구는 크게 네 단계로 구동된다. 미리 훈련된 입술 움직임 예측 모델(입술 회귀기, lip regressor)을 사용해 음성 데이터를 통해 얼굴 동작을 출력한다. 음성 데이터를 기반으로 1프레임 단위로 가이드 포즈를 예측하고 가이드 포즈와 음성 데이터를 사용해 초당 30프레임의 하이-프리퀀시 몸동작을 생성한다.

생성된 얼굴과 움직임은 최종적으로 훈련된 가상 캐릭터 렌더러로 전달되어 사실적인 아바타를 생성한다. 최종 결과물에서 대화의 미묘한 뉘앙스를 표현하는 사실적인 전신 가상 캐릭터가 등장한다.

해당 도구는 일반적인 대화는 물론 TV 오디오 클립을 사용해 3D 아바타를 생성하기도 했다. 미국의 유명 TV 드라마 ‘프렌즈’의 한 장면의 오디오 클립을 이용한 예제에서 아바타는 매우 자연스러운 표정과 동작을 연결해 해당 장면을 연기했다.

연구진은 ‘오디오투포토리얼’ AI 도구가 완전한 몸짓을 하는 사실적인 아바타를 구현할 것으로 알린다. 논문에서 벡터 양자화 이점을 활용해 더 표현력 있고 다양한 동작을 생성한다고 밝히고 있다.

다만 아직 기술적인 한계도 존재한다. 짧은 대화에서만 작동하며 긴 언어에서 작동하는 예를 들어 카운팅 동작과 같은 제스처는 생성하지 못한다.

메타의 새로운 AI 기술을 접한 현직 개발자들은 메타버스와 3D 게임 개발에 적용할 방법을 찾고 있다. ‘GTA’ 시리즈나 ‘레드 데드 리뎀션’등 다양한 NPC 상호 작용을 요구하는 오픈월드 게임 개발 환경에 도움될 것으로 예측한다.

거대 언어 모델(LLM)과 연계했을 경우 대화 스크립트 생성과 3D 아바타 생성까지 한 번에 이어줄 수 있어 완전히 새로운 개발 환경을 만들어 줄 수도 있다는 평가도 나온다. 현재 툴과 관련된 코드가 모두 공개된 상태다. '깃허브'에서 누구나 접근할 수 있다.

관련기사

저작권자 © 게임플 무단전재 및 재배포 금지