데모 프로젝트
Runtime MetaHuman Lip Sync를 빠르게 시작할 수 있도록 두 개의 바로 사용할 수 있는 데모 프로젝트가 제공됩니다. 두 프로젝트 모두 Unreal Engine 5.6으로 제작되었으며(UE 5.7+에서 지원됨), Blueprint-only이며, Windows, Mac, Linux, iOS, Android 및 Android 기반 플랫폼(Meta Quest 포함)에서 크로스 플랫폼으로 실행됩니다.
사용 가능한 데모 프로젝트
- AI Conversational NPC
- 기본 립싱크 데모
음성 인식, AI 챗봇(LLM), 텍스트 음성 변환, 실시간 립싱크가 포함된 오디오 재생을 결합한 완전한 AI NPC 대화형 워크플로우 - 모든 것이 단일 프로젝트에서 함께 실행됩니다.
파이프라인 개요
🎤 Microphone → Speech Recognition → 💬 LLM Chatbot → 🔊 Text-to-Speech → 👄 Lip Sync + Playback
주요 영상
다운로드
필수 및 선택 플러그인
데모 프로젝트는 모듈식입니다 - 사용하려는 제공자에 필요한 플러그인만 있으면 됩니다.
| 플러그인 | 용도 | 필수 여부? |
|---|---|---|
| Runtime MetaHuman Lip Sync | 립싱크 애니메이션 | ✅ 항상 |
| Runtime Audio Importer | 오디오 캡처 및 처리 | ✅ 항상 |
| Runtime Speech Recognizer | 오프라인 음성 인식 (whisper.cpp) | ✅ 항상 |
| Runtime AI Chatbot Integrator | 외부 LLM (OpenAI, Claude, DeepSeek, Gemini, Grok, Ollama) 및/또는 외부 TTS (OpenAI, ElevenLabs) | 🔶 선택* |
| Runtime Local LLM | llama.cpp를 사용한 로컬 LLM 추론 (Llama, Mistral, Gemma 등 GGUF 모델) | 🔶 선택* |
| Runtime Text To Speech | Piper 및 Kokoro를 통한 로컬 TTS | 🔶 선택* |
* 최소 하나의 LLM 제공자와 최소 하나의 TTS 제공자가 필요합니다. 자유롭게 조합하세요 (예: 로컬 LLM + ElevenLabs TTS, 또는 OpenAI LLM + 로컬 TTS).
모듈형 아키텍처
데모 프로젝트는 완전히 모듈화되어 있습니다. Content 폴더 안의 Modules 폴더에는 세 개의 하위 폴더가 있습니다:
Content/
└── Modules/
├── RuntimeAIChatbotIntegrator/ ← External LLMs and/or external TTS
├── RuntimeLocalLLM/ ← Local LLM via llama.cpp
└── RuntimeTextToSpeech/ ← Local TTS via Piper/Kokoro
선택적 플러그인 중 하나(또는 여러 개)를 구매하지 않았다면 해당 폴더를 삭제하세요. 데모 프로젝트의 기본 에셋(게임 인스턴스, 위젯 등)은 이 모듈을 직접 참조하지 않으므로 삭제해도 에셋 참조 오류가 발생하지 않습니다. 구성 UI는 폴더가 없는 제공업체를 자동으로 숨깁니다.
이 모듈화는 LLM 및 TTS 제공업체에만 적용됩니다. 음성 인식 (Runtime Speech Recognizer) 및 립싱크 (Runtime MetaHuman Lip Sync)는 기본 데모 프로젝트의 일부이며 항상 필요합니다.

처음 실행 시 Unreal에서 누락된 선택적 플러그인을 비활성화할지 묻는 메시지가 표시될 수 있습니다 - 예를 클릭하세요. 또한 해당 Content/Modules/ 폴더도 삭제했는지 확인하세요(위 참조).
데모 프로젝트 레이아웃
아래 표시된 사용자 인터페이스는 완전히 UMG (Unreal Motion Graphics)로 구축되었으며, 파이프라인을 시연하기 위한 것입니다 - 음성 인식 → LLM → TTS → 립싱크. 게임의 비주얼 디자인, 컨트롤 방식, 플랫폼(VR/AR, 모바일, 콘솔 등)에 맞게 스타일을 변경하거나 교체할 수 있습니다. 사용 사례에 특정 위젯이 필요하지 않다면 단순히 숨길 수도 있습니다(예: 가시성을 축소 또는 숨김으로 설정).

| 영역 | 내용 |
|---|---|
| 중앙 | MetaHuman 캐릭터. |
| 왼쪽 | 네 개의 구성 버튼 (음성 인식, AI 챗봇, 텍스트 음성 변환, 애니메이션) - 아래에 자세히 설명되어 있습니다. |
| 중앙 하단 | 녹음 시작 버튼. 클릭하면 음성 대화가 시작됩니다: 마이크가 캡처되고, 텍스트로 변환되어 LLM으로 전송되며, 응답이 TTS를 통해 합성되어 립싱크와 함께 재생되며, 완전히 핸즈프리로 진행됩니다. |
| 우측 중앙 | 사용자와 AI 간의 전체 대화(사용자 및 어시스턴트 메시지)를 보여주는 대화 기록 위젯. 음성 인식 없이 직접 메시지를 입력할 수 있는 텍스트 입력 필드도 포함되어 있어 테스트, 접근성, 또는 마이크를 사용할 수 없는 경우에 유용합니다. |
같은 세션에서 두 입력 모드를 자유롭게 혼합할 수 있습니다 - 일부 메시지는 말하고, 다른 메시지는 입력하세요.
구성 버튼
왼쪽의 네 가지 구성 버튼은 파이프라인의 각 부분에 대한 전용 패널을 엽니다:
1. 음성 인식 구성
사용자의 음성이 캡처되고 텍스트로 변환되는 방식을 구성합니다:
- 언어 선택
- 음성 인식 매개변수 조정(Whisper 모델 설정)
- AEC (음향 에코 제거) 구성
- VAD (음성 활동 감지) 구성

2. AI 챗봇 구성
LLM 제공업체를 선택하고 구성합니다:
- 제공업체 선택 (Runtime AI Chatbot Integrator 또는 Runtime Local LLM)
- 외부 제공업체: 인증 토큰, 모델 이름 등
- 로컬 LLM: GGUF 모델 선택, 컨텍스트 크기 설정 및 기타 추론 매개변수. 데모에서 직접 런타임에 자신의 GGUF 모델을 다운로드하여(예: URL을 통해) 프로젝트를 다시 빌드하지 않고도 즉시 사용할 수 있습니다.
제공업체 콤보박스는 Content/Modules/에 플러그인 모듈 폴더가 있는 제공업체만 표시합니다.


3. 텍스트 음성 변환 구성
TTS 제공업체를 선택하고 음성/모델을 구성합니다:
- 제공업체 선택 (OpenAI/ElevenLabs용 Runtime AI Chatbot Integrator 또는 로컬 Piper/Kokoro용 Runtime Text To Speech)
- 음성/모델 선택
- 제공업체별 매개변수 조정


4. 애니메이션 구성
AI NPC의 비주얼을 제어합니다:
- 미리 다운로드된 3개의 MetaHuman 캐릭터 (Aera, Ada, Orlando) 중에서 선택
- 립싱크 모델 선택 (표준 또는 리얼리스틱)
- 립싱크 모델 유형 선택 - 고도 최적화, 준최적화, 또는 원본 (참조: 모델 유형)
- 처리 청크 크기 조정 - 립싱크 추론 실행 빈도 제어 (참조: 처리 청크 크기)
- 대화 중 MetaHuman에 재생할 대기 애니메이션 선택

에디터에서 데모 사전 구성
소스 버전으로 작업할 때, 에디터에서 직접 기본값을 미리 채워 매 실행마다 값을 다시 입력할 필요가 없도록 할 수 있습니다:
| 설정 내용 | 위치 |
|---|---|
| 일반 설정 (립싱크 모델, 대기 애니메이션, 캐릭터 클래스, 음성 인식 등) | Content/LipSyncSTSGameInstance |
| 외부 LLM / 외부 TTS 설정 (Runtime AI Chatbot Integrator) | Content/Modules/RuntimeAIChatbotIntegrator/RuntimeAIChatbotIntegrator_Provider |
| 로컬 LLM 설정 (Runtime Local LLM) | Content/Modules/RuntimeLocalLLM/RuntimeLocalLLM_Provider |
| 로컬 TTS 설정 (Runtime Text To Speech) | Content/Modules/RuntimeTextToSpeech/RuntimeTextToSpeech_Provider |
크로스 플랫폼 참고 사항
데모에서 사용하는 모든 플러그인은 Windows, Mac, Linux, iOS, Android 및 Android 기반 플랫폼(Meta Quest 포함)을 지원하므로 데모 프로젝트도 이 모든 플랫폼에서 작동합니다.
성능이 낮은 기기(모바일, 독립형 VR)의 경우 다음을 고려해야 합니다:
- 리얼리스틱 대신 표준 립싱크 모델 사용 - 모델 비교 참조
- 고도 최적화 모델 유형으로 전환
- 처리 청크 크기를 늘려 CPU 부하 감소
- 더 작은 LLM / TTS 모델 선택
Android, iOS, Mac, Linux에서의 추가 설정 단계는 플랫폼별 구성을 참조하세요.
나만의 MetaHuman 가져오기
데모 프로젝트에는 세 가지 샘플 MetaHuman 캐릭터 (Aera, Ada, Orlando)가 포함되어 있지만, 자신의 MetaHuman을 가져와 데모에서 사용할 수 있습니다.
📺 비디오 튜토리얼: 데모 프로젝트에 사용자 정의 MetaHuman 캐릭터 추가하기
Runtime MetaHuman Lip Sync 플러그인 자체는 MetaHuman 외에도 다양한 캐릭터 시스템(ARKit 기반 캐릭터, Daz Genesis 8/9, Reallusion CC3/CC4, Mixamo, ReadyPlayerMe 등)을 지원합니다 - 사용자 정의 캐릭터 설정 가이드를 참조하세요.
다양한 오디오 소스로 립싱크가 작동하는 모습만 보고 싶은 경우에 적합한, 완전한 AI 대화 워크플로우 없이 립싱크 기능 자체에만 초점을 맞춘 간단한 데모 프로젝트입니다.
주요 비디오
다운로드
포함된 내용
이 데모는 기본 립싱크 워크플로우를 보여줍니다:
- 마이크 입력 - 실시간 오디오에 대한 실시간 립싱크
- 오디오 파일 재생 - 가져온 오디오 파일의 립싱크
- 텍스트 음성 변환 - 합성된 음성으로 구동되는 립싱크
필수 및 선택적 플러그인
| 플러그인 | 목적 | 필수 여부 |
|---|---|---|
| Runtime MetaHuman Lip Sync | 립싱크 애니메이션 | ✅ 필수 |
| Runtime Audio Importer | 오디오 가져오기 및 캡처 | ✅ 필수 |
| Runtime Text To Speech | TTS 데모 장면을 위한 로컬 TTS | 🔶 선택적 |
| Runtime AI Chatbot Integrator | 외부 TTS 제공업체 (OpenAI, ElevenLabs) | 🔶 선택적 |
표준 립싱크 모델 관련 참고 사항
두 데모 프로젝트 중 하나에서 표준 모델(리얼리스틱 대신)을 사용할 계획이라면, 표준 립싱크 확장 플러그인을 설치해야 합니다. 설치 지침은 표준 모델 확장을 참조하세요.
도움이 필요하신가요?
데모 프로젝트를 설정하거나 실행하는 데 문제가 발생하면 언제든지 문의하세요:
커스텀 개발 요청(예: 시연에 자신만의 로직을 추가하거나 특정 플랫폼이나 캐릭터 파이프라인에 맞게 조정하는 작업)은 [email protected]로 문의하세요.