본문으로 건너뛰기

개요

Runtime MetaHuman Lip Sync 문서

Runtime MetaHuman Lip Sync은 MetaHuman과 커스텀 캐릭터 모두를 위한 실시간, 오프라인 및 크로스 플랫폼 립 싱크를 가능하게 하는 플러그인입니다. 이 플러그인을 사용하면 다양한 소스의 오디오 입력에 반응하여 캐릭터의 입술을 애니메이션화할 수 있습니다. 입력 소스에는 다음이 포함됩니다:

이 플러그인은 내부적으로 오디오 입력을 기반으로 비짐(phoneme의 시각적 표현)을 생성합니다. 텍스트가 아닌 오디오 데이터와 직접 작동하기 때문에 이 플러그인은 영어, 스페인어, 프랑스어, 독일어, 일본어, 중국어, 한국어, 러시아어, 이탈리아어, 포르투갈어, 아랍어, 힌디어를 포함하되 이에 국한되지 않는 다국어 입력을 지원합니다. 말 그대로 모든 언어가 지원됩니다. 이는 립 싱크가 언어별 텍스트 처리보다는 오디오 phoneme에서 생성되기 때문입니다.

표준 모델14개의 비짐을 생성하고 미리 정의된 포즈 애셋을 사용하여 립 싱크 애니메이션을 수행합니다. 반면 리얼리스틱 모델(MetaHuman 캐릭터 전용)은 미리 정의된 포즈 애셋에 의존하지 않고 250개의 모프 타겟 변경을 생성하여 훨씬 더 현실적인 얼굴 애니메이션을 제공합니다.

캐릭터 호환성

이름과 달리 Runtime MetaHuman Lip Sync는 MetaHuman 외에도 다양한 캐릭터와 함께 작동합니다:

인기 있는 상용 캐릭터 시스템

  • Daz Genesis 8/9 캐릭터
  • Reallusion Character Creator 3/4 (CC3/CC4) 캐릭터
  • Mixamo 캐릭터
  • ReadyPlayerMe 아바타

애니메이션 표준 지원

  • FACS 기반 블렌드쉐이프 시스템
  • Apple ARKit 블렌드쉐이프 표준
  • Preston Blair phoneme 세트
  • 3ds Max phoneme 시스템
  • 얼굴 표정을 위한 커스텀 모프 타겟이 있는 모든 캐릭터

MetaHuman이 아닌 캐릭터와 함께 플러그인을 사용하는 방법에 대한 자세한 지침은 커스텀 캐릭터 설정 가이드를 참조하세요.

애니메이션 미리보기

다양한 캐릭터 유형과 모델에서 플러그인에 의해 생성된 립 싱크 애니메이션의 품질을 확인하려면 다음 짧은 애니메이션을 확인하세요:

Realistic Lip Sync Example
메타휴먼 캐릭터를 사용한 사실적인 모델
Standard Lip Sync Example
MetaHuman 캐릭터가 적용된 표준 모델
Custom Character Lip Sync Example
사용자 정의 캐릭터가 적용된 표준 모델
Custom Character Lip Sync Example
사용자 정의 캐릭터가 적용된 표준 모델

주요 기능

  • 마이크 입력을 통한 실시간 립 싱크
  • 오프라인 오디오 처리 지원
  • 크로스 플랫폼 호환성: Windows, Android, Meta Quest
  • 다양한 캐릭터 시스템 및 애니메이션 표준 지원
  • 사용자 정의 캐릭터를 위한 유연한 비젼 매핑
  • 오디오 분석을 통한 모든 언어 지원 - 어떤 구어도 작동 가능

립 싱크 모델

이 플러그인은 다양한 프로젝트 요구사항에 맞춰 두 가지 립 싱크 모델을 제공합니다:

표준 립 싱크 모델은 광범위한 캐릭터 호환성과 효율적인 크로스 플랫폼 성능을 제공합니다:

  • MetaHumans 및 모든 사용자 정의 캐릭터 타입과 호환
  • 모든 플랫폼에서 실시간 성능 최적화
  • 낮은 리소스 요구 사항
  • 로컬 TTS(Runtime Text To Speech 플러그인)와 완벽 호환
  • 모바일 및 VR/AR 애플리케이션에 적합
확장 플러그인 필요

표준(더 빠른) 모델을 사용하려면 추가 확장 플러그인 설치가 필요합니다. 설치 방법은 필수 조건 섹션을 참조하세요.

프로젝트의 성능, 캐릭터 호환성 및 시각적 품질 요구사항에 따라 적절한 모델을 선택할 수 있습니다.

TTS 호환성 참고

두 모델 모두 다양한 오디오 입력 방법을 지원하지만, 리얼리스틱 모델은 ONNX 런타임 충돌로 인해 로컬 TTS와의 호환성이 제한적입니다. 리얼리스틱 모델에서 텍스트-투-스피치 기능을 사용하려면 외부 TTS 서비스(OpenAI, ElevenLabs)를 사용하는 것이 권장됩니다.

작동 원리

이 플러그인은 다음과 같은 방식으로 오디오 입력을 처리합니다:

  1. 오디오 데이터가 PCM 형식의 float 값으로 지정된 채널샘플 레이트와 함께 수신됨
  2. 플러그인이 오디오를 처리하여 비젼(포넴) 생성
  3. 이 비젼들이 캐릭터의 포즈 애셋을 사용해 립 싱크 애니메이션 구동
  4. 애니메이션이 실시간으로 캐릭터에 적용됨

빠른 시작

캐릭터에 립 싱크를 활성화하는 기본 설정 방법은 다음과 같습니다:

  1. MetaHuman 캐릭터의 경우 MetaHuman 설정 가이드를 따르세요
  2. 커스텀 캐릭터의 경우 커스텀 캐릭터 설정 가이드를 따르세요
  3. 오디오 입력 처리 설정 (예: Event Graph에서)
  4. Anim Graph에서 Blend Runtime MetaHuman Lip Sync 노드 연결
  5. 오디오 재생 후 캐릭터가 말하는 모습 확인!

추가 자료

📦 다운로드 및 링크

🎥 비디오 튜토리얼

추천 데모:

리얼리스틱 모델 (고품질) 튜토리얼:

표준 모델 튜토리얼:

일반 설정:

💬 지원