본문으로 건너뛰기

데모 프로젝트

Runtime MetaHuman Lip Sync를 빠르게 시작할 수 있도록 두 개의 바로 사용할 수 있는 데모 프로젝트가 제공됩니다. 두 프로젝트 모두 Unreal Engine 5.6으로 제작되었으며(UE 5.7+에서 지원됨), Blueprint-only이며, Windows, Mac, Linux, iOS, Android 및 Android 기반 플랫폼(Meta Quest 포함)에서 크로스 플랫폼으로 실행됩니다.

사용 가능한 데모 프로젝트

음성 인식, AI 챗봇(LLM), 텍스트 음성 변환, 실시간 립싱크가 포함된 오디오 재생을 결합한 완전한 AI NPC 대화형 워크플로우 - 모든 것이 단일 프로젝트에서 함께 실행됩니다.

파이프라인 개요

🎤 Microphone → Speech Recognition → 💬 LLM Chatbot → 🔊 Text-to-Speech → 👄 Lip Sync + Playback

주요 영상

다운로드

필수 및 선택 플러그인

데모 프로젝트는 모듈식입니다 - 사용하려는 제공자에 필요한 플러그인만 있으면 됩니다.

플러그인용도필수 여부?
Runtime MetaHuman Lip Sync립싱크 애니메이션✅ 항상
Runtime Audio Importer오디오 캡처 및 처리✅ 항상
Runtime Speech Recognizer오프라인 음성 인식 (whisper.cpp)✅ 항상
Runtime AI Chatbot Integrator외부 LLM (OpenAI, Claude, DeepSeek, Gemini, Grok, Ollama) 및/또는 외부 TTS (OpenAI, ElevenLabs)🔶 선택*
Runtime Local LLMllama.cpp를 사용한 로컬 LLM 추론 (Llama, Mistral, Gemma 등 GGUF 모델)🔶 선택*
Runtime Text To SpeechPiper 및 Kokoro를 통한 로컬 TTS🔶 선택*

* 최소 하나의 LLM 제공자최소 하나의 TTS 제공자가 필요합니다. 자유롭게 조합하세요 (예: 로컬 LLM + ElevenLabs TTS, 또는 OpenAI LLM + 로컬 TTS).

모듈형 아키텍처

데모 프로젝트는 완전히 모듈화되어 있습니다. Content 폴더 안의 Modules 폴더에는 세 개의 하위 폴더가 있습니다:

Content/
└── Modules/
├── RuntimeAIChatbotIntegrator/ ← External LLMs and/or external TTS
├── RuntimeLocalLLM/ ← Local LLM via llama.cpp
└── RuntimeTextToSpeech/ ← Local TTS via Piper/Kokoro

선택적 플러그인 중 하나(또는 여러 개)를 구매하지 않았다면 해당 폴더를 삭제하세요. 데모 프로젝트의 기본 에셋(게임 인스턴스, 위젯 등)은 이 모듈을 직접 참조하지 않으므로 삭제해도 에셋 참조 오류가 발생하지 않습니다. 구성 UI는 폴더가 없는 제공업체를 자동으로 숨깁니다.

노트

이 모듈화는 LLMTTS 제공업체에만 적용됩니다. 음성 인식 (Runtime Speech Recognizer) 및 립싱크 (Runtime MetaHuman Lip Sync)는 기본 데모 프로젝트의 일부이며 항상 필요합니다.

Modules folder structure

경고

처음 실행 시 Unreal에서 누락된 선택적 플러그인을 비활성화할지 묻는 메시지가 표시될 수 있습니다 - 를 클릭하세요. 또한 해당 Content/Modules/ 폴더도 삭제했는지 확인하세요(위 참조).

데모 프로젝트 레이아웃

UI는 시연 목적입니다

아래 표시된 사용자 인터페이스는 완전히 UMG (Unreal Motion Graphics)로 구축되었으며, 파이프라인을 시연하기 위한 것입니다 - 음성 인식 → LLM → TTS → 립싱크. 게임의 비주얼 디자인, 컨트롤 방식, 플랫폼(VR/AR, 모바일, 콘솔 등)에 맞게 스타일을 변경하거나 교체할 수 있습니다. 사용 사례에 특정 위젯이 필요하지 않다면 단순히 숨길 수도 있습니다(예: 가시성을 축소 또는 숨김으로 설정).

데모 프로젝트 메인 화면의 주석이 달린 개요

영역내용
중앙MetaHuman 캐릭터.
왼쪽네 개의 구성 버튼 (음성 인식, AI 챗봇, 텍스트 음성 변환, 애니메이션) - 아래에 자세히 설명되어 있습니다.
중앙 하단녹음 시작 버튼. 클릭하면 음성 대화가 시작됩니다: 마이크가 캡처되고, 텍스트로 변환되어 LLM으로 전송되며, 응답이 TTS를 통해 합성되어 립싱크와 함께 재생되며, 완전히 핸즈프리로 진행됩니다.
우측 중앙사용자와 AI 간의 전체 대화(사용자 및 어시스턴트 메시지)를 보여주는 대화 기록 위젯. 음성 인식 없이 직접 메시지를 입력할 수 있는 텍스트 입력 필드도 포함되어 있어 테스트, 접근성, 또는 마이크를 사용할 수 없는 경우에 유용합니다.

같은 세션에서 두 입력 모드를 자유롭게 혼합할 수 있습니다 - 일부 메시지는 말하고, 다른 메시지는 입력하세요.

구성 버튼

왼쪽의 네 가지 구성 버튼은 파이프라인의 각 부분에 대한 전용 패널을 엽니다:

1. 음성 인식 구성

사용자의 음성이 캡처되고 텍스트로 변환되는 방식을 구성합니다:

  • 언어 선택
  • 음성 인식 매개변수 조정(Whisper 모델 설정)
  • AEC (음향 에코 제거) 구성
  • VAD (음성 활동 감지) 구성

Speech recognition configuration screen

2. AI 챗봇 구성

LLM 제공업체를 선택하고 구성합니다:

  • 제공업체 선택 (Runtime AI Chatbot Integrator 또는 Runtime Local LLM)
  • 외부 제공업체: 인증 토큰, 모델 이름
  • 로컬 LLM: GGUF 모델 선택, 컨텍스트 크기 설정 및 기타 추론 매개변수. 데모에서 직접 런타임에 자신의 GGUF 모델을 다운로드하여(예: URL을 통해) 프로젝트를 다시 빌드하지 않고도 즉시 사용할 수 있습니다.

제공업체 콤보박스는 Content/Modules/에 플러그인 모듈 폴더가 있는 제공업체만 표시합니다.

AI chatbot configuration - Runtime AI Chatbot Integrator (external LLM)

AI chatbot configuration - Runtime Local LLM (local GGUF)

3. 텍스트 음성 변환 구성

TTS 제공업체를 선택하고 음성/모델을 구성합니다:

  • 제공업체 선택 (OpenAI/ElevenLabs용 Runtime AI Chatbot Integrator 또는 로컬 Piper/Kokoro용 Runtime Text To Speech)
  • 음성/모델 선택
  • 제공업체별 매개변수 조정

TTS configuration - Runtime AI Chatbot Integrator (external TTS)

TTS configuration - Runtime Local Text To Speech (local Piper/Kokoro)

4. 애니메이션 구성

AI NPC의 비주얼을 제어합니다:

  • 미리 다운로드된 3개의 MetaHuman 캐릭터 (Aera, Ada, Orlando) 중에서 선택
  • 립싱크 모델 선택 (표준 또는 리얼리스틱)
  • 립싱크 모델 유형 선택 - 고도 최적화, 준최적화, 또는 원본 (참조: 모델 유형)
  • 처리 청크 크기 조정 - 립싱크 추론 실행 빈도 제어 (참조: 처리 청크 크기)
  • 대화 중 MetaHuman에 재생할 대기 애니메이션 선택

Animations configuration screen

에디터에서 데모 사전 구성

소스 버전으로 작업할 때, 에디터에서 직접 기본값을 미리 채워 매 실행마다 값을 다시 입력할 필요가 없도록 할 수 있습니다:

설정 내용위치
일반 설정 (립싱크 모델, 대기 애니메이션, 캐릭터 클래스, 음성 인식 등)Content/LipSyncSTSGameInstance
외부 LLM / 외부 TTS 설정 (Runtime AI Chatbot Integrator)Content/Modules/RuntimeAIChatbotIntegrator/RuntimeAIChatbotIntegrator_Provider
로컬 LLM 설정 (Runtime Local LLM)Content/Modules/RuntimeLocalLLM/RuntimeLocalLLM_Provider
로컬 TTS 설정 (Runtime Text To Speech)Content/Modules/RuntimeTextToSpeech/RuntimeTextToSpeech_Provider

크로스 플랫폼 참고 사항

데모에서 사용하는 모든 플러그인은 Windows, Mac, Linux, iOS, Android 및 Android 기반 플랫폼(Meta Quest 포함)을 지원하므로 데모 프로젝트도 이 모든 플랫폼에서 작동합니다.

성능이 낮은 기기(모바일, 독립형 VR)의 경우 다음을 고려해야 합니다:

  • 리얼리스틱 대신 표준 립싱크 모델 사용 - 모델 비교 참조
  • 고도 최적화 모델 유형으로 전환
  • 처리 청크 크기를 늘려 CPU 부하 감소
  • 더 작은 LLM / TTS 모델 선택

Android, iOS, Mac, Linux에서의 추가 설정 단계는 플랫폼별 구성을 참조하세요.

나만의 MetaHuman 가져오기

데모 프로젝트에는 세 가지 샘플 MetaHuman 캐릭터 (Aera, Ada, Orlando)가 포함되어 있지만, 자신의 MetaHuman을 가져와 데모에서 사용할 수 있습니다.

📺 비디오 튜토리얼: 데모 프로젝트에 사용자 정의 MetaHuman 캐릭터 추가하기

노트

Runtime MetaHuman Lip Sync 플러그인 자체는 MetaHuman 외에도 다양한 캐릭터 시스템(ARKit 기반 캐릭터, Daz Genesis 8/9, Reallusion CC3/CC4, Mixamo, ReadyPlayerMe 등)을 지원합니다 - 사용자 정의 캐릭터 설정 가이드를 참조하세요.

표준 립싱크 모델 관련 참고 사항

두 데모 프로젝트 중 하나에서 표준 모델(리얼리스틱 대신)을 사용할 계획이라면, 표준 립싱크 확장 플러그인을 설치해야 합니다. 설치 지침은 표준 모델 확장을 참조하세요.

도움이 필요하신가요?

데모 프로젝트를 설정하거나 실행하는 데 문제가 발생하면 언제든지 문의하세요:

Join our Discord
online · support

커스텀 개발 요청(예: 시연에 자신만의 로직을 추가하거나 특정 플랫폼이나 캐릭터 파이프라인에 맞게 조정하는 작업)은 [email protected]로 문의하세요.