플러그인 사용 방법
이 가이드는 MetaHuman 캐릭터에 Runtime MetaHuman Lip Sync를 설정하는 과정을 안내합니다.
참고: Runtime MetaHuman Lip Sync는 MetaHuman과 커스텀 캐릭터 모두와 호환됩니다. 이 플러그인은 다음과 같은 다양한 캐릭터 유형을 지원합니다:
- 인기 있는 상용 캐릭터 (Daz Genesis 8/9, Reallusion CC3/CC4, Mixamo, ReadyPlayerMe 등)
- FACS 기반 블렌드쉐이프를 가진 캐릭터
- ARKit 블렌드쉐이프 표준을 사용하는 모델
- Preston Blair 포네임 세트를 가진 캐릭터
- 3ds Max 포네임 시스템
- 얼굴 표정을 위한 커스텀 모프 타겟이 있는 모든 캐릭터
위의 모든 표준에 대한 비젼 매핑 참조를 포함한 커스텀 캐릭터 설정에 대한 자세한 지침은 커스텀 캐릭터 설정 가이드를 참조하세요.
필수 조건
시작하기 전에 다음 사항을 확인하세요:
- 프로젝트에서 MetaHuman 플러그인이 활성화되어 있는지 확인하세요 (참고: UE 5.6부터는 이 단계가 더 이상 필요하지 않으며 MetaHuman 기능이 엔진에 직접 통합됨)
- 프로젝트에 최소 하나 이상의 MetaHuman 캐릭터가 다운로드되어 있어야 합니다
- Runtime MetaHuman Lip Sync 플러그인이 설치되어 있어야 합니다
표준 모델 확장 플러그인
표준 (더 빠른) 모델을 사용할 계획이라면 확장 플러그인을 설치해야 합니다:
- Google Drive에서 Standard Lip Sync Extension plugin을 다운로드하세요
- 다운로드한 아카이브에서 폴더를 추출하여 프로젝트의
Plugins
폴더에 넣으세요 (해당 폴더가 없으면 생성하세요) - 프로젝트가 C++ 프로젝트로 설정되어 있는지 확인하세요 (C++ 코드가 없더라도)
- 프로젝트를 리빌드하세요
- 이 확장은 표준 모델을 사용하려는 경우에만 필요합니다. 리얼리스틱 모델만 필요한 경우 이 단계를 건너뛸 수 있습니다.
- 플러그인을 수동으로 빌드하는 방법에 대한 자세한 내용은 플러그인 빌드 튜토리얼을 참조하세요
추가 플러그인
- 오디오 캡처 (예: 마이크 입력)를 사용할 계획이라면 Runtime Audio Importer 플러그인을 설치하세요.
- 텍스트-투-스피치 기능을 내 플러그인과 함께 사용할 계획이라면 (사용자 정의 TTS나 다른 오디오 입력 방식을 사용할 수도 있음), Runtime Audio Importer 플러그인 외에도 다음을 추가로 설치하세요:
- 로컬 TTS의 경우 Runtime Text To Speech 플러그인
- 외부 TTS 제공업체 (ElevenLabs, OpenAI)의 경우 Runtime AI Chatbot Integrator 플러그인
플랫폼별 설정
Android / Meta Quest 설정
Android 또는 Meta Quest 플랫폼을 타겟팅하고 이 플러그인으로 빌드 오류가 발생하는 경우, 프로젝트 설정에서 x86_64 (x64) Android 아키텍처를 비활성화해야 합니다:
- 편집 > 프로젝트 설정으로 이동
- 플랫폼 > Android로 이동
- 플랫폼 - Android 아래, 빌드 섹션에서 **Support x86_64 [aka x64]**를 찾아 비활성화된 상태인지 확인하세요. 아래와 같이 표시됩니다.
이는 현재 플러그인이 Android / Meta Quest 플랫폼에 대해 arm64-v8a 및 armeabi-v7a 아키텍처만 지원하기 때문입니다.
설정 과정
1단계: 얼굴 애니메이션 Blueprint 찾기 및 수정
- UE 5.5 및 이전 버전 (또는 UE 5.6+의 레거시 MetaHumans)
- UE 5.6+ MetaHuman Creator 캐릭터
MetaHuman 캐릭터의 얼굴 애니메이션에 사용될 Animation Blueprint를 수정해야 합니다. 기본 MetaHuman 얼굴 Animation Blueprint는 다음 위치에 있습니다:
Content/MetaHumans/Common/Face/Face_AnimBP
Lip Sync 기능을 구현하기 위한 몇 가지 옵션이 있습니다:
- 기본 애셋 직접 수정 (가장 간단한 옵션)
- 복제본 생성
- 커스텀 Animation Blueprint 사용
기본 Face_AnimBP
를 직접 열어 수정합니다. 변경 사항은 이 Animation Blueprint를 사용하는 모든 MetaHuman 캐릭터에 영향을 미칩니다.
참고: 이 접근 방식은 편리하지만 기본 Animation Blueprint를 사용하는 모든 캐릭터에 영향을 줍니다.
Face_AnimBP
를 복제하고 설명이 포함된 이름을 지정합니다- 캐릭터의 Blueprint 클래스를 찾습니다 (예: "Bryan" 캐릭터의 경우
Content/MetaHumans/Bryan/BP_Bryan
에 위치) - 캐릭터 Blueprint를 열고 Face 컴포넌트를 찾습니다
- Anim Class 속성을 새로 복제한 Animation Blueprint로 변경합니다
참고: 이 접근 방식을 사용하면 특정 캐릭터에 대한 Lip Sync를 커스터마이징하면서 다른 캐릭터는 변경하지 않을 수 있습니다.
필요한 얼굴 뼈대에 접근할 수 있는 모든 Animation Blueprint에서 Lip Sync 블렌딩을 구현할 수 있습니다:
- 커스텀 Animation Blueprint를 생성하거나 기존 것을 사용합니다
- Animation Blueprint가 기본 MetaHuman의
Face_Archetype_Skeleton
(모든 MetaHuman 캐릭터에 사용되는 표준 스켈레톤)과 동일한 얼굴 뼈대를 가진 스켈레톤과 작동하는지 확인합니다
참고: 이 접근 방식은 커스텀 애니메이션 시스템과의 통합을 위한 최대의 유연성을 제공합니다.
UE 5.6부터 기존의 Face_AnimBP
애셋 없이 캐릭터를 생성하는 새로운 MetaHuman Creator 시스템이 도입되었습니다. 이러한 캐릭터의 경우 플러그인은 다음 위치에 페이스 Animation Blueprint를 제공합니다:
Content/LipSyncData/LipSync_Face_AnimBP
:::경고 중요 이 Animation Blueprint는 플러그인의 콘텐츠 폴더에 위치하며 각 플러그인 업데이트 시 덮어쓰여집니다. 커스터마이징 내용을 잃지 않으려면 반드시 다음을 권장합니다:
- 이 에셋을 프로젝트의 Content 폴더로 복사합니다 (예:
YourProject/Content/MetaHumans/LipSync_Face_AnimBP
) - 캐릭터 설정에서 복사한 버전을 사용합니다
- 모든 수정 사항을 복사한 버전에 적용합니다
이렇게 하면 플러그인 업데이트 시에도 립 싱크 설정이 유지됩니다. :::
플러그인의 Face Animation Blueprint 사용 방법:
- MetaHuman Creator 캐릭터의 Blueprint 클래스를 찾습니다
- 캐릭터 Blueprint를 열고 Face 컴포넌트를 찾습니다
- Anim Class 속성을 플러그인의
LipSync_Face_AnimBP
로 변경합니다 - Runtime MetaHuman Lip Sync 기능을 구성하기 위해 2-4단계를 계속 진행합니다
대체 옵션:
- 레거시 지침 사용: 레거시 MetaHumans로 작업하거나 기존 워크플로우를 선호하는 경우 위의 UE 5.5 지침을 따를 수 있습니다
- 커스텀 Animation Blueprint 생성: MetaHuman Creator 스켈레톤 구조와 호환되는 자신만의 Animation Blueprint를 생성합니다
참고: UE 5.6+를 사용하지만 MetaHuman Creator를 통해 생성되지 않은 레거시 MetaHumans를 사용하는 경우 "UE 5.5 및 이전 버전" 탭의 지침을 대신 사용하십시오.
중요: Runtime MetaHuman Lip Sync 블렌딩은 기본 MetaHuman의 Face_Archetype_Skeleton
에 있는 얼굴 뼈를 포함하는 포즈에 액세스할 수 있는 모든 Animation Blueprint 에셋에서 구현할 수 있습니다. 위 옵션에만 국한되지 않으며, 이들은 일반적인 구현 접근 방식일 뿐입니다.
2단계: 이벤트 그래프 설정
Face Animation Blueprint를 열고 Event Graph
로 전환합니다. 오디오 데이터를 처리하고 립 싱크 애니메이션을 생성할 생성기를 만들어야 합니다.
- 표준 (더 빠른) 모델
- 리얼리스틱 (더 높은 품질) 모델
- 아직 없는 경우
Event Blueprint Begin Play
노드를 추가합니다 Create Runtime Viseme Generator
노드를 추가하고 Begin Play 이벤트에 연결합니다- 출력을 변수(예: "VisemeGenerator")로 저장하여 그래프의 다른 부분에서 사용합니다
- 아직 없는 경우
Event Blueprint Begin Play
노드를 추가합니다 Create Realistic MetaHuman Lip Sync Generator
노드를 추가하고 Begin Play 이벤트에 연결합니다- 출력을 변수(예: "RealisticLipSyncGenerator")로 저장하여 그래프의 다른 부분에서 사용합니다
- (선택 사항) Configuration 매개변수를 사용하여 생성기 설정을 구성합니다
- (선택 사항) Realistic MetaHuman Lip Sync Generator 객체에서 Processing Chunk Size를 설정합니다

참고: Realistic Model은 MetaHuman 캐릭터에 특화되어 최적화되었으며, 커스텀 캐릭터 유형과는 호환되지 않습니다.
구성 옵션
Create Realistic MetaHuman Lip Sync Generator
노드는 생성기의 동작을 사용자 정의할 수 있는 선택적 Configuration 매개변수를 허용합니다:
모델 유형
Model Type 설정은 사용할 리얼리스틱 모델 버전을 결정합니다:
모델 유형 | 성능 | 시각적 품질 | 노이즈 처리 | 권장 사용 사례 |
---|---|---|---|---|
Highly Optimized (기본값) | 최고 성능, 최저 CPU 사용량 | 양호한 품질 | 배경 노이즈 또는 비음성 소스에서 입 움직임이 눈에 띌 수 있음 | 깨끗한 오디오 환경, 성능이 중요한 시나리오 |
Optimized | 우수한 성능, 중간 수준 CPU 사용량 | 높은 품질 | 노이즈가 있는 오디오에서 더 안정적 | 균형 잡힌 성능과 품질, 혼합된 오디오 조건 |
Original Unoptimized | 최신 CPU에서 실시간 사용 가능 | 최고 품질 | 배경 노이즈 및 비음성 소스에서 가장 안정적 | 고품질 프로덕션, 노이즈가 많은 오디오 환경, 최대 정확도가 필요할 때 |
성능 설정
Intra Op Threads: 내부 모델 처리 작업에 사용되는 스레드 수를 제어합니다.
- 0 (기본값/자동): 자동 감지 사용 (일반적으로 사용 가능한 CPU 코어의 1/4, 최대 4개)
- 1-16: 수동으로 스레드 수 지정. 멀티코어 시스템에서 더 높은 값은 성능을 향상시킬 수 있지만 CPU 사용량 증가
Inter Op Threads: 서로 다른 모델 작업의 병렬 실행에 사용되는 스레드 수를 제어합니다.
- 0 (기본값/자동): 자동 감지 사용 (일반적으로 사용 가능한 CPU 코어의 1/8, 최대 2개)
- 1-8: 수동으로 스레드 수 지정. 실시간 처리에는 일반적으로 낮게 유지
구성 사용 방법
생성기를 구성하려면:
Create Realistic MetaHuman Lip Sync Generator
노드에서 Configuration 매개변수 확장- Model Type을 선호하는 옵션으로 설정:
- 최고 성능을 위해 Highly Optimized 사용 (대부분의 사용자에게 권장)
- 균형 잡힌 성능과 품질을 위해 Optimized 사용
- 최대 품질이 필수적인 경우에만 Original Unoptimized 사용
- 필요한 경우 Intra Op Threads 및 Inter Op Threads 조정 (대부분의 경우 자동 감지를 위해 0으로 유지) 성능 권장 사항:
- 깨끗한 오디오가 있는 대부분의 프로젝트에서는 최상의 성능을 위해 Highly Optimized를 사용하세요
- 배경 소음, 음악 또는 비음성 소리가 포함된 오디오로 작업하는 경우 더 나은 안정성을 위해 Optimized 또는 Original Unoptimized 모델을 고려하세요
- Highly Optimized 모델은 모델 생성 시 적용된 최적화 기술로 인해 비음성 오디오 처리 시 미묘한 입 움직임을 보일 수 있습니다
- Original Unoptimized 모델은 더 많은 CPU 리소스를 필요로 하지만 현대 하드웨어에서 실시간 애플리케이션에 여전히 적합하며 어려운 오디오 조건에서 가장 정확한 결과를 제공합니다
- 성능 문제가 있거나 특정 최적화 요구 사항이 있는 경우에만 스레드 수를 조정하세요
- 더 높은 스레드 수가 항상 더 나은 성능을 의미하지는 않습니다 - 최적의 값은 특정 하드웨어 및 프로젝트 요구 사항에 따라 다릅니다
처리 청크 크기 구성: Processing Chunk Size는 각 추론 단계에서 처리되는 샘플 수를 결정합니다. 기본값은 160 샘플로, 16kHz(내부 처리 샘플 레이트)에서 10ms의 오디오에 해당합니다. 이 값을 조정하여 업데이트 빈도와 CPU 사용량 사이의 균형을 맞출 수 있습니다:
- 더 작은 값은 더 빈번한 업데이트를 제공하지만 CPU 사용량을 증가시킵니다
- 더 큰 값은 CPU 부하를 줄이지만 Lip Sync 반응성이 감소할 수 있습니다
Processing Chunk Size 설정 방법:
Realistic MetaHuman Lip Sync Generator
객체에 접근하세요Processing Chunk Size
속성을 찾으세요- 원하는 값을 설정하세요
160의 배수를 사용하는 것이 권장됩니다. 이는 모델의 내부 처리 구조와 일치합니다. 권장 값은 다음과 같습니다:
160
(기본값, 최소 권장)320
480
640
- 등
기본 Processing Chunk Size인 160
샘플은 16kHz에서 10ms의 오디오에 해당합니다. 160의 배수를 사용하면 이 기본 단위와 정렬을 유지할 수 있으며, 이는 처리 효율성을 최적화하고 다양한 청크 크기에서 일관된 동작을 유지하는 데 도움이 될 수 있습니다.
Realistic Model과의 안정적이고 일관된 작동을 위해, 비활성 기간 후 새로운 오디오 데이터를 입력하려는 경우 반드시 Realistic MetaHuman Lip Sync Generator를 다시 생성해야 합니다. 이는 ONNX 런타임 동작으로 인해, 침묵 기간 후 생성기를 재사용할 때 Lip Sync가 작동을 멈출 수 있기 때문입니다.
예시 시나리오: TTS Lip Sync를 수행한 후 중지했다가, 나중에 새로운 오디오로 다시 Lip Sync를 수행하려는 경우 기존 생성기를 재사용하는 대신 새로운 Realistic MetaHuman Lip Sync Generator를 생성하세요.
3단계: 오디오 입력 처리 설정
오디오 입력을 처리할 방법을 설정해야 합니다. 오디오 소스에 따라 여러 가지 방법이 있습니다.
- 마이크 (실시간)
- 마이크 (재생)
- Text-to-Speech (Local)
- Text-to-Speech (External APIs)
- 오디오 파일/버퍼에서
- Streaming Audio Buffer
이 접근 방식은 마이크에 말하면서 실시간으로 립 싱크를 수행합니다:
- 표준 (더 빠른) 모델
- 리얼리스틱 (고품질) 모델
- Runtime Audio Importer를 사용하여 Capturable Sound Wave 생성
- 오디오 캡처를 시작하기 전에
OnPopulateAudioData
델리게이트에 바인딩 - 바인딩된 함수에서 Runtime Viseme Generator의
ProcessAudioData
호출 - 마이크에서 오디오 캡처 시작
리얼리스틱 모델은 표준 모델과 동일한 오디오 처리 워크플로우를 사용하지만, VisemeGenerator
대신 RealisticLipSyncGenerator
변수를 사용합니다.
표준 모델에 표시된 각 예제에서 다음을 간단히 교체하세요:
VisemeGenerator
를RealisticLipSyncGenerator
변수로- 함수 이름과 매개변수는 두 모델 간에 동일하게 유지됩니 다
이 접근 방식은 마이크에서 오디오를 캡처한 후, 립 싱크와 함께 재생합니다:
- 표준 (더 빠른) 모델
- Realistic (Higher Quality) Model
- Runtime Audio Importer를 사용하여 Capturable Sound Wave 생성
- 마이크에서 오디오 캡처 시작
- 캡처 가능한 사운드 웨이브를 재생하기 전에
OnGeneratePCMData
델리게이트에 바인딩 - 바인딩된 함수에서 Runtime Viseme Generator의
ProcessAudioData
호출
Realistic 모델은 Standard 모델과 동일한 오디오 처리 워크플로우를 사용하지만, VisemeGenerator
대신 RealisticLipSyncGenerator
변수를 사용합니다.
Standard 모델에서 보여준 각 예제에서 다음을 간단히 교체하세요:
VisemeGenerator
를 여러분의RealisticLipSyncGenerator
변수로- 함수 이름과 파라미터는 두 모델 간 동일하게 유지됩니다
참고: 더 반응적인 립 싱크를 위해 오디오 데이터를 더 작은 청크로 처리하려면 SetNumSamplesPerChunk
함수의 계산을 조정하세요. 예를 들어, 샘플 레이트를 100(10ms마다 스트리밍) 대신 150(~6.67ms마다 스트리밍)으로 나누면 더 빈번한 립 싱크 업데이트를 제공할 수 있습니다.
- Regular
- Streaming
이 접근 방식은 텍스트에서 음성을 합성하고 립 싱크를 수행합니다:
- Standard (Faster) Model
- Realistic (Higher Quality) Model
- Runtime Text To Speech를 사용해 텍스트에서 음성 생성
- Runtime Audio Importer로 합성된 오디오 임포트
- 임포트된 사운드 웨이브 재생 전에,
OnGeneratePCMData
델리게이트에 바인딩 - 바인딩된 함수에서 Runtime Viseme Generator의
ProcessAudioData
호출
Runtime Text To Speech 플러그인이 제공하는 로컬 TTS는 현재 ONNX 런타임 충돌로 인해 Realistic 모델과 호환되지 않습니다. Realistic 모델로 텍스트-투-스피치를 사용하려면 외부 TTS 서비스(예: Runtime AI Chatbot Integrator를 통한 OpenAI 또는 ElevenLabs)를 고려하거나 Standard 모델을 대신 사용하세요.
참고: 더 반응적인 립 싱크를 위해 오디오 데이터를 더 작은 청크로 처리하려면 SetNumSamplesPerChunk
함수의 계산을 조정하세요. 예를 들어, 샘플 레이트를 100(10ms마다 스트리밍) 대신 150(~6.67ms마다 스트리밍)으로 나누면 더 빈번한 립 싱크 업데이트를 제공할 수 있습니다.
이 접근 방식은 실시간 Lip Sync와 함께 스트리밍 텍스트-음성 합성을 사용합니다:
- Standard (Faster) Model
- Realistic (Higher Quality) Model
- Runtime Text To Speech를 사용하여 텍스트에서 스트리밍 음성을 생성
- Runtime Audio Importer를 사용하여 합성된 오디오 가져오기
- 스트리밍 사운드 웨이브 재생 전에
OnGeneratePCMData
델리게이트에 바인딩 - 바인딩된 함수에서 Runtime Viseme Generator의
ProcessAudioData
호출
Runtime Text To Speech 플러그인에서 제공하는 로컬 TTS는 현재 ONNX 런타임 충돌로 인해 Realistic 모델과 호환되지 않습니다. Realistic 모델을 사용한 텍스트-음성 변환을 원할 경우, 외부 TTS 서비스(예: Runtime AI Chatbot Integrator를 통한 OpenAI 또는 ElevenLabs)를 사용하거나 Standard 모델을 대신 사용하세요.
참고: 더 반응적인 Lip Sync를 위해 더 작은 청크로 오디오 데이터를 처리하려면 SetNumSamplesPerChunk
함수의 계산을 조정하세요. 예를 들어, 샘플 레이트를 100(10ms마다 스트리밍) 대신 150(~6.67ms마다 스트리밍)으로 나누면 더 빈번한 Lip Sync 업데이트가 제공됩니다.
- Regular
- Streaming
이 접근 방식은 Runtime AI Chatbot Integrator 플러그인을 사용하여 AI 서비스(OpenAI 또는 ElevenLabs)에서 합성된 음성을 생성하고 Lip Sync를 수행합니다:
- Standard (Faster) Model
- Realistic (Higher Quality) Model
- Runtime AI Chatbot Integrator를 사용하여 외부 API(OpenAI, ElevenLabs 등)로부터 텍스트에서 음성 생성
- Runtime Audio Importer를 사용하여 합성된 오디오 데이터 가져오기
- 가져온 사운드 웨이브 재생 전에
OnGeneratePCMData
델리게이트에 바인딩 - 바인딩된 함수에서 Runtime Viseme Generator의
ProcessAudioData
호출
Realistic 모델은 Standard 모델과 동일한 오디오 처리 워크플로우를 사용하지만, VisemeGenerator
대신 RealisticLipSyncGenerator
변수를 사용합니다.
Standard 모델에서 보여준 각 예제에서 다음을 간단히 변경하면 됩니다:
VisemeGenerator
를 여러분의RealisticLipSyncGenerator
변수로 교체- 함수 이름과 파라미터는 두 모델 간에 동일하게 유지
참고: 더 반응적인 Lip Sync을 위해 오디오 데이터를 더 작은 청크로 처리하려면 SetNumSamplesPerChunk
함수의 계산을 조정하세요. 예를 들어, 샘플 레이트를 100(10ms마다 스트리밍) 대신 150(~6.67ms마다 스트리밍)으로 나누면 더 빈번한 Lip Sync 업데이트를 제공할 수 있습니다.
이 접근 방식은 Runtime AI Chatbot Integrator 플러그인을 사용하여 AI 서비스(OpenAI 또는 ElevenLabs)로부터 합성된 스트리밍 음성을 생성하고 Lip Sync을 수행합니다:
- Standard (Faster) Model
- Realistic (Higher Quality) Model
- Runtime AI Chatbot Integrator를 사용하여 스트리밍 TTS API(예: ElevenLabs Streaming API)에 연결
- Runtime Audio Importer를 사용하여 합성된 오디오 데이터 임포트
- 스트리밍 사운드 웨이브를 재생하기 전에, 해당
OnGeneratePCMData
델리게이트에 바인딩 - 바인딩된 함수에서 Runtime Viseme Generator의
ProcessAudioData
호출
Realistic 모델은 Standard 모델과 동일한 오디오 처리 워크플로우를 사용하지만, VisemeGenerator
대신 RealisticLipSyncGenerator
변수를 사용합니다.
Standard 모델에서 보여준 각 예제에서 다음을 간단히 변경하면 됩니다:
VisemeGenerator
를 여러분의RealisticLipSyncGenerator
변수로 교체- 함수 이름과 파라미터는 두 모델 간에 동일하게 유지
참고: 더 반응적인 Lip Sync을 위해 오디오 데이터를 더 작은 청크로 처리하려면 SetNumSamplesPerChunk
함수의 계산을 조정하세요. 예를 들어, 샘플 레이트를 100(10ms마다 스트리밍) 대신 150(약 6.67ms마다 스트리밍)으로 나누면 더 빈번한 Lip Sync 업데이트를 제공할 수 있습니다.
이 접근 방식은 Lip Sync을 위해 미리 녹음된 오디오 파일 또는 오디오 버퍼를 사용합니다:
- 표준 (더 빠른) 모델
- 리얼리스틱 (더 높은 품질) 모델
- Runtime Audio Importer를 사용하여 디스크 또는 메모리에서 오디오 파일 가져오기
- 가져온 사운드 웨이브를 재생하기 전에,
OnGeneratePCMData
델리게이트에 바인딩 - 바인딩된 함수에서 Runtime Viseme Generator의
ProcessAudioData
호출 - 가져온 사운드 웨이브를 재생하고 Lip Sync 애니메이션 관찰
리얼리스틱 모델은 표준 모델과 동일한 오디오 처리 워크플로우를 사용하지만, VisemeGenerator
대신 RealisticLipSyncGenerator
변수를 사용합니다.
표준 모델에 표시된 각 예제에서 간단히 다음을 교체하세요:
VisemeGenerator
를RealisticLipSyncGenerator
변수로- 함수 이름과 매개변수는 두 모델 간에 동일하게 유지됩니다
참고: 더 반응적인 Lip Sync을 위해 오디오 데이터를 더 작은 청크로 처리하려면 SetNumSamplesPerChunk
함수의 계산을 조정하세요. 예를 들어, 샘플 레이트를 100(10ms마다 스트리밍) 대신 150(약 6.67ms마다 스트리밍)으로 나누면 더 빈번한 Lip Sync 업데이트를 제공할 수 있습니다.
버퍼에서 스트리밍 오디오 데이터를 처리하려면 다음이 필요합니다:
- Standard (Faster) Model
- Realistic (Higher Quality) Model
- 스트리밍 소스에서 제공되는 float PCM 형식의 오디오 데이터(부동 소수점 샘플 배열)
- 샘플 레이트와 채널 수
- 오디오 청크가 사용 가능해질 때마다 Runtime Viseme Generator의
ProcessAudioData
를 이러한 매개변수와 함께 호출
스트리밍 오디오 데이터에서 Lip Sync를 처리하는 예시:
참고: 스트리밍 오디오 소스를 사용할 때는 왜곡된 재생을 방지하기 위해 오디오 재생 타이밍을 적절히 관리해야 합니다. 올바른 스트리밍 오디오 관리에 대한 자세한 내용은 Streaming Sound Wave 문서를 참조하세요.
Realistic Model은 Standard Model과 동일한 오디오 처리 워크플로우를 사용하지만, VisemeGenerator
대신 RealisticLipSyncGenerator
변수를 사용합니다.
Standard Model에 표시된 각 예시에서 다음을 대체하기만 하면 됩니다:
VisemeGenerator
를RealisticLipSyncGenerator
변수로- 함수 이름과 매개변수는 두 모델 간에 동일하게 유지됩니다
참고: 스트리밍 오디오 소스를 사용할 때는 왜곡된 재생을 방지하기 위해 오디오 재생 타이밍을 적절히 관리해야 합니다. 올바른 스트리밍 오디오 관리에 대한 자세한 내용은 Streaming Sound Wave 문서를 참조하세요.
참고: 더 반응성이 좋은 Lip Sync를 위해 더 작은 청크로 오디오 데이터를 처리하려면 SetNumSamplesPerChunk
함수의 계산을 조정하세요. 예를 들어, 샘플 레이트를 100(10ms마다 스트리밍) 대신 150(~6.67ms마다 스트리밍)으로 나누면 더 빈번한 Lip Sync 업데이트를 제공할 수 있습니다.
단계 4: Anim Graph 설정
Event Graph 설정 후, Anim Graph
로 전환하여 생성기를 캐릭터 애니메이션에 연결합니다:
Lip Sync
- Standard (더 빠른) 모델
- Realistic (더 높은 품질) 모델
- MetaHuman 얼굴이 포함된 포즈를 찾습니다 (일반적으로
Use cached pose 'Body Pose'
에서 가져옵니다) Blend Runtime MetaHuman Lip Sync
노드를 추가합니다- 포즈를
Blend Runtime MetaHuman Lip Sync
노드의Source Pose
에 연결합니다 RuntimeVisemeGenerator
변수를Viseme Generator
핀에 연결합니다Blend Runtime MetaHuman Lip Sync
노드의 출력을Output Pose
의Result
핀에 연결합니다
오디오에서 립 싱크가 감지되면 캐릭터가 동적으로 애니메이션됩니다:
- MetaHuman 얼굴이 포함된 포즈를 찾습니다 (일반적으로
Use cached pose 'Body Pose'
에서 가져옵니다) Blend Realistic MetaHuman Lip Sync
노드를 추가합니다- 포즈를
Blend Realistic MetaHuman Lip Sync
노드의Source Pose
에 연결합니다 RealisticLipSyncGenerator
변수를Lip Sync Generator
핀에 연결합니다Blend Realistic MetaHuman Lip Sync
노드의 출력을Output Pose
의Result
핀에 연결합니다
Realistic 모델은 더 자연스러운 입 움직임으로 향상된 시각적 품질을 제공합니다:
참고: Realistic 모델은 MetaHuman 캐릭터 전용으로 설계되었으며 커스텀 캐릭터 유형과는 호환되 지 않습니다.
웃음 애니메이션
오디오에서 감지된 웃음에 동적으로 반응하는 웃음 애니메이션을 추가할 수도 있습니다:
Blend Runtime MetaHuman Laughter
노드를 추가합니다RuntimeVisemeGenerator
변수를Viseme Generator
핀에 연결합니다- 이미 립 싱크를 사용 중인 경우:
Blend Runtime MetaHuman Lip Sync
노드의 출력을Blend Runtime MetaHuman Laughter
노드의Source Pose
에 연결합니다Blend Runtime MetaHuman Laughter
노드의 출력을Output Pose
의Result
핀에 연결합니다
- 립 싱크 없이 웃음만 사용하는 경우:
- 소스 포즈를 직접
Blend Runtime MetaHuman Laughter
노드의Source Pose
에 연결합니다 - 출력을
Result
핀에 연결합니다
- 소스 포즈를 직접
오디오에서 웃음이 감지되면 캐릭터가 동적으로 애니메이션됩니다:
바디 애니메이션과 결합
기존 바디 애니메이션을 덮어쓰지 않고 립 싱크와 웃음을 함께 적용하려면:
Layered blend per bone
노드를 바디 애니메이션과 최종 출력 사이에 추가하세요.Use Attached Parent
를 true로 설정해야 합니다.- 레이어 설정 구성:
Layer Setup
배열에 1개의 아이템 추가- 레이어의
Branch Filters
에 3개의 아이템을 추가하고, 다음Bone Name
들을 지정하세요:FACIAL_C_FacialRoot
FACIAL_C_Neck2Root
FACIAL_C_Neck1Root
- 연결 작업:
- 기존 애니메이션(예:
BodyPose
) →Base Pose
입력 - 페이셜 애니메이션 출력(Lip Sync 및/또는 laughter 노드에서) →
Blend Poses 0
입력 - Layered blend 노드 → 최종
Result
포즈
- 기존 애니메이션(예:
작동 원리: Branch 필터들이 페이셜 애니메이션 본들을 분리하여, Lip Sync와 laughter가 페이셜 움직임과만 블렌딩되도록 하면서 원본 바디 애니메이션은 보존합니다. 이는 MetaHuman 페이셜 릭 구조와 일치하여 자연스러운 통합을 보장합니다.
참고: Lip Sync와 laughter 기능은 기존 애니메이션 설정과 비파괴적으로 작동하도록 설계되었습니다. 이들은 입 움직임에 필요한 특정 페이셜 본들만 영향을 주며, 다른 페이셜 애니메이션들은 그대로 유지됩니다. 따라서 애니메이션 체인의 어느 지점에서도 안전하게 통합할 수 있습니다 - 다른 페이셜 애니메이션들 전에(해당 애니메이션들이 Lip Sync/laughter를 오버라이드하도록) 또는 후에(기존 애니메이션 위에 Lip Sync/laughter가 블렌딩되도록) 배치할 수 있습니다. 이러한 유연성으로 눈 깜빡임, 눈썹 움직임, 감정 표현 및 기타 페이셜 애니메이션들과 충돌 없이 결합할 수 있습니다.
설정
Lip Sync 설정
- Standard (Faster) Model
- Realistic (Higher Quality) Model
Blend Runtime MetaHuman Lip Sync
노드는 프로퍼티 패널에서 설정 옵션을 제공합니다:
프로퍼티 | 기본값 | 설명 |
---|---|---|
Interpolation Speed | 25 | 비지엠 사이의 입 움직임 전환 속도를 제어합니다. 값이 높을수록 더 빠르고 급격한 전환이 일어납니다. |
Reset Time | 0.2 | Lip Sync가 리셋되기까지의 시간(초)입니다. 오디오가 중지된 후에도 Lip Sync가 계속되는 것을 방지하는 데 유용합니다. |
Blend Realistic MetaHuman Lip Sync
노드는 프로퍼티 패널에서 설정 옵션을 제공합니다:
프로퍼티 | 기본값 | 설명 |
---|---|---|
Interpolation Speed | 30 | 입 위치 간 전환 속도를 제어합니다. 값이 높을수록 더 빠르고 급격한 전환이 일어납니다. |
Reset Time | 0.2 | Lip Sync가 리셋되기까지의 시간(초)입니다. 오디오가 중지된 후에도 Lip Sync가 계속되는 것을 방지하는 데 유용합니다. |
Laughter 설정
Blend Runtime MetaHuman Laughter
노드에는 자체 구성 옵션이 있습니다:
속성 | 기본값 | 설명 |
---|---|---|
보간 속도 | 25 | 웃음 애니메이션 간 입술 움직임 전환 속도를 제어합니다. 값이 높을수록 더 빠르고 급격한 전환이 일어납니다. |
재설정 시간 | 0.2 | 웃음이 재설정되기까지의 시간(초)입니다. 오디오가 중단된 후에도 웃음이 계속되는 것을 방지하는 데 유용합니다. |
최대 웃음 강도 | 0.7 | 웃음 애니메이션의 최대 강도를 조절합니다(0.0 - 1.0). |
Lip Sync 모델 선택 가이드
프로젝트에 사용할 Lip Sync 모델을 선택할 때 다음 요소들을 고려하세요:
고려 사항 | 표준 모델 | 리얼리스틱 모델 |
---|---|---|
캐릭터 호환성 | MetaHumans 및 모든 커스텀 캐릭터 타입 | MetaHumans 전용 |
시각적 품질 | 효율적인 성능 대비 우수한 Lip Sync | 더 자연스러운 입 움직임으로 향상된 리얼리즘 |
성능 | 모바일/VR을 포함한 모든 플랫폼에 최적화 | 약간 더 높은 리소스 요구 사항 |
사용 사례 | 일반 애플리케이션, 게임, VR/AR, 모바일 | 시네마틱 경험, 클로즈업 캐릭터 상호작용 |
엔진 버전 호환성
Unreal Engine 5.2를 사용 중이라면, UE의 리샘플링 라이브러리 버그로 인해 리얼리스틱 모델이 제대로 작동하지 않을 수 있습니다. UE 5.2 사용자 중 안정적인 Lip Sync 기능이 필요한 경우 표준 모델을 사용하시기 바랍니다.
이 문제는 UE 5.2에 특화된 것으로, 다른 엔진 버전에는 영향을 미치지 않습니다.
대부분의 프로젝트에서 표준 모델은 다양한 캐릭터 타입을 지원하면서도 품질과 성능의 우수한 균형을 제공합니다. 리얼리스틱 모델은 성능 오버헤드가 덜 중요한 상황에서 MetaHuman 캐릭터에 대한 최고 수준의 시각적 정밀도가 필요할 때 이상적입니다.