Projekty demonstracyjne
Aby pomóc Ci szybko rozpocząć pracę z Runtime MetaHuman Lip Sync, dostępne są dwa gotowe do użycia projekty demonstracyjne. Oba są zbudowane przy użyciu Unreal Engine 5.6 (i obsługiwane na UE 5.7+), są Blueprint-only i działają wieloplatformowo na Windows, Mac, Linux, iOS, Android oraz platformach opartych na Androidzie (w tym Meta Quest).
Dostępne projekty demonstracyjne
- AI Conversational NPC
- Podstawowe demo synchronizacji ruchu warg
Pełen przepływ pracy konwersacyjnego AI NPC, łączący rozpoznawanie mowy, chatbota AI (LLM), syntezę mowy na tekst oraz odtwarzanie dźwięku z synchronizacją ruchu ust w czasie rzeczywistym — wszystko działające razem w jednym projekcie.
Omówienie przepływu pracy
🎤 Microphone → Speech Recognition → 💬 LLM Chatbot → 🔊 Text-to-Speech → 👄 Lip Sync + Playback
Wyróżnione wideo
Pliki do pobrania
Wymagane i opcjonalne wtyczki
Projekt demonstracyjny jest modularny – potrzebujesz tylko wtyczek dla dostawców, których chcesz używać.
| Wtyczka | Przeznaczenie | Wymagana? |
|---|---|---|
| Runtime MetaHuman Lip Sync | Animacja synchronizacji ruchu warg | ✅ Zawsze |
| Runtime Audio Importer | Przechwytywanie i przetwarzanie dźwięku | ✅ Zawsze |
| Runtime Speech Recognizer | Rozpoznawanie mowy offline (whisper.cpp) | ✅ Zawsze |
| Runtime AI Chatbot Integrator | Zewnętrzne LLM (OpenAI, Claude, DeepSeek, Gemini, Grok, Ollama) i/lub zewnętrzny TTS (OpenAI, ElevenLabs) | 🔶 Opcjonalne* |
| Runtime Local LLM | Wnioskowanie lokalnego LLM przez llama.cpp (Llama, Mistral, Gemma, itp., modele GGUF) | 🔶 Opcjonalne* |
| Runtime Text To Speech | Lokalny TTS przez Piper i Kokoro | 🔶 Opcjonalne* |
* Potrzebujesz co najmniej jednego dostawcy LLM i co najmniej jednego dostawcy TTS. Mieszaj i dopasowuj dowolnie (np. lokalny LLM + ElevenLabs TTS lub OpenAI LLM + lokalny TTS).
Content/
└── Modules/
├── RuntimeAIChatbotIntegrator/ ← External LLMs and/or external TTS
├── RuntimeLocalLLM/ ← Local LLM via llama.cpp
└── RuntimeTextToSpeech/ ← Local TTS via Piper/Kokoro
Jeśli nie udało Ci się zdobyć jednej (lub więcej) wtyczek opcjonalnych, po prostu usuń odpowiednie foldery. Podstawowe zasoby projektu demo (instancja gry, widgety itp.) nie odwołują się bezpośrednio do tych modułów, więc ich usunięcie nie spowoduje błędów odwołań. Interfejs konfiguracyjny automatycznie ukryje każdego dostawcę, którego folder jest nieobecny.
Ta modułowość dotyczy wyłącznie dostawców LLM i TTS. Rozpoznawanie mowy (Runtime Speech Recognizer) i synchronizacja ruchu warg (Runtime MetaHuman Lip Sync) są częścią bazowego projektu demo i są zawsze wymagane.

Przy pierwszym uruchomieniu Unreal może zapytać, czy wyłączyć brakujące opcjonalne wtyczki – kliknij Tak. Upewnij się, że usunąłeś również odpowiadający folder Content/Modules/ (zobacz wyżej).
Układ projektu demo
Pokazany poniżej interfejs użytkownika został zbudowany w całości przy użyciu UMG (Unreal Motion Graphics) i służy wyłącznie do prezentacji potoku – rozpoznawanie mowy → LLM → TTS → synchronizacja ruchu warg. Możesz przebudować go lub zastąpić, aby dopasować do wizualnego stylu swojej gry, schematu sterowania czy platformy (VR/AR, mobilne, konsola itp.). Jeśli niektóre widgety nie są potrzebne w Twoim przypadku, możesz je również po prostu ukryć (np. ustawić ich widoczność na Collapsed lub Hidden).

| Obszar | Co się tam znajduje |
|---|---|
| Środek | Postać MetaHuman. |
| Lewa strona | Cztery przyciski konfiguracyjne (rozpoznawanie mowy, chatbot AI, synteza mowy, animacje), szczegółowo opisane poniżej. |
| Dolna część środkowa | Przycisk Rozpocznij nagrywanie. Kliknij go, aby rozpocząć rozmowę głosową: Twój mikrofon jest przechwytywany, transkrybowany, wysyłany do LLM, odpowiedź jest syntezowana przez TTS i odtwarzana z synchronizacją ruchu warg, całkowicie bez użycia rąk. |
| Prawy środek | Widget historii rozmowy pokazujący całą wymianę zdań między Tobą a AI (zarówno wiadomości użytkownika, jak i asystenta). Zawiera również pole wprowadzania tekstu, dzięki czemu możesz wpisywać wiadomości bezpośrednio bez używania rozpoznawania mowy, przydatne do testów, dla dostępności lub gdy mikrofon jest niedostępny. |
W tej samej sesji możesz swobodnie mieszać oba tryby wprowadzania – mówić niektóre wiadomości, inne wpisywać.
Przyciski konfiguracyjne
Cztery przyciski konfiguracyjne po lewej otwierają dedykowane panele dla każdej części potoku:
1. Skonfiguruj rozpoznawanie mowy
Skonfiguruj sposób przechwytywania i transkrypcji głosu użytkownika:
- Wybierz język
- Dostosuj parametry rozpoznawania mowy (ustawienia modelu Whisper)
- Skonfiguruj AEC (Acoustic Echo Cancellation)
- Skonfiguruj VAD (Voice Activity Detection)

2. Skonfiguruj chatbota AI
Wybierz dostawcę LLM i skonfiguruj go:
- Wybierz dostawcę (Runtime AI Chatbot Integrator lub Runtime Local LLM)
- Dla dostawców zewnętrznych: token uwierzytelniający, nazwa modelu itp.
- Dla lokalnego LLM: wybierz model GGUF, ustaw rozmiar kontekstu i inne parametry inferencji. Możesz też pobrać własny model GGUF w czasie działania bezpośrednio z demo (np. przez URL) i natychmiast go używać bez ponownego budowania projektu.
Lista rozwijana dostawców pokazuje tylko tych, których folder modułu wtyczki znajduje się w Content/Modules/.


3. Skonfiguruj syntezę mowy
Wybierz dostawcę TTS i skonfiguruj głosy/modele:
- Wybierz dostawcę (Runtime AI Chatbot Integrator dla OpenAI/ElevenLabs lub Runtime Text To Speech dla lokalnego Piper/Kokoro)
- Wybierz głos/model
- Dostosuj parametry specyficzne dla dostawcy


4. Skonfiguruj animacje
Kontroluj wygląd swojego NPC AI:
- Wybierz spośród 3 wstępnie pobranych postaci MetaHuman (Aera, Ada, Orlando)
- Wybierz model synchronizacji ruchu warg (Standard lub Realistic)
- Wybierz typ modelu synchronizacji ruchu warg - Highly Optimized, Semi-Optimized lub Original (zobacz Typ modelu)
- Dostosuj Rozmiar porcji przetwarzania – kontroluje częstotliwość wykonywania inferencji synchronizacji ruchu warg (zobacz Rozmiar porcji przetwarzania)
- Wybierz animację bezczynności do odtwarzania na MetaHumanie podczas rozmowy

Wstępna konfiguracja demo w edytorze
Podczas pracy z wersją źródłową możesz wstępnie wypełnić ustawienia domyślne bezpośrednio w edytorze, aby wartości nie musiały być ponownie wprowadzane przy każdym uruchomieniu:
| Co | Gdzie |
|---|---|
| Ustawienia ogólne (model synchronizacji ruchu warg, animacja bezczynności, klasa postaci, rozpoznawanie mowy itp.) | Content/LipSyncSTSGameInstance |
| Ustawienia zewnętrznego LLM / zewnętrznego TTS (Runtime AI Chatbot Integrator) | Content/Modules/RuntimeAIChatbotIntegrator/RuntimeAIChatbotIntegrator_Provider |
| Ustawienia lokalnego LLM (Runtime Local LLM) | Content/Modules/RuntimeLocalLLM/RuntimeLocalLLM_Provider |
| Ustawienia lokalnego TTS (Runtime Text To Speech) | Content/Modules/RuntimeTextToSpeech/RuntimeTextToSpeech_Provider |
Uwagi dotyczące wielu platform
Wszystkie wtyczki używane w demo wspierają systemy Windows, Mac, Linux, iOS, Android oraz platformy oparte na Androidzie (w tym Meta Quest), więc projekt demo działa również na nich wszystkich.
Dla słabszych urządzeń (mobilnych, samodzielnego VR) warto rozważyć:
- Użycie modelu Standard synchronizacji ruchu warg zamiast Realistic – zobacz Porównanie modeli
- Przełączenie na typ Highly Optimized
- Zwiększenie Rozmiaru porcji przetwarzania, aby zmniejszyć obciążenie CPU
- Wybór mniejszych modeli LLM / TTS
Zobacz Konfiguracja specyficzna dla platformy w celu uzyskania dodatkowych kroków konfiguracji na Androidzie, iOS, Macu i Linuksie.
Wprowadzanie własnego MetaHumana
Projekt demo zawiera trzy przykładowe postacie MetaHuman (Aera, Ada, Orlando), ale możesz zaimportować własnego MetaHumana i użyć go w demo.
📺 Samouczek wideo: Dodawanie niestandardowej postaci MetaHuman do projektu demo
Sama wtyczka Runtime MetaHuman Lip Sync wspiera wiele innych systemów postaci poza MetaHumanami (postacie oparte na ARKit, Daz Genesis 8/9, Reallusion CC3/CC4, Mixamo, ReadyPlayerMe itp. – zobacz Przewodnik konfiguracji niestandardowych postaci).
Prostszy projekt demo, który skupia się wyłącznie na funkcji synchronizacji ruchu warg, bez pełnego przepływu konwersacyjnego AI. Odpowiedni, jeśli chcesz zobaczyć synchronizację ruchu warg w akcji z różnymi źródłami dźwięku.
Polecane wideo
Pobieranie
Co zawiera
To demo prezentuje podstawowe procesy synchronizacji ruchu warg:
- Wejście mikrofonowe – synchronizacja ruchu warg w czasie rzeczywistym z dźwięku na żywo
- Odtwarzanie pliku audio – synchronizacja ruchu warg z zaimportowanych plików audio
- Synteza mowy – synchronizacja ruchu warg napędzana przez syntezowaną mowę
Wymagane i opcjonalne wtyczki
| Wtyczka | Przeznaczenie | Wymagana? |
|---|---|---|
| Runtime MetaHuman Lip Sync | Animacja synchronizacji ruchu warg | ✅ Wymagana |
| Runtime Audio Importer | Import i przechwytywanie dźwięku | ✅ Wymagana |
| Runtime Text To Speech | Lokalny TTS dla sceny demo TTS | 🔶 Opcjonalna |
| Runtime AI Chatbot Integrator | Zewnętrzni dostawcy TTS (OpenAI, ElevenLabs) | 🔶 Opcjonalna |
Uwagi dotyczące modelu Standard Lip Sync
Jeśli planujesz używać modelu Standard (zamiast Realistic) w którymkolwiek projekcie demo, musisz zainstalować wtyczkę Standard Lip Sync Extension. Zobacz Rozszerzenie modelu Standard w celu uzyskania instrukcji instalacji.
Potrzebujesz pomocy?
Jeśli napotkasz jakiekolwiek problemy podczas konfigurowania lub uruchamiania projektów demo, skontaktuj się z nami:
W przypadku zapytań o niestandardowe rozwiązania programistyczne (np. rozszerzanie demo o własną logikę, dostosowywanie go do konkretnej platformy lub potoku postaci), skontaktuj się z [email protected].