Przejdź do głównej zawartości

Projekty demonstracyjne

Aby pomóc Ci szybko rozpocząć pracę z Runtime MetaHuman Lip Sync, dostępne są dwa gotowe do użycia projekty demonstracyjne. Oba są zbudowane przy użyciu Unreal Engine 5.6 (i obsługiwane na UE 5.7+), są Blueprint-only i działają wieloplatformowo na Windows, Mac, Linux, iOS, Android oraz platformach opartych na Androidzie (w tym Meta Quest).

Dostępne projekty demonstracyjne

Pełen przepływ pracy konwersacyjnego AI NPC, łączący rozpoznawanie mowy, chatbota AI (LLM), syntezę mowy na tekst oraz odtwarzanie dźwięku z synchronizacją ruchu ust w czasie rzeczywistym — wszystko działające razem w jednym projekcie.

Omówienie przepływu pracy

🎤 Microphone → Speech Recognition → 💬 LLM Chatbot → 🔊 Text-to-Speech → 👄 Lip Sync + Playback

Wyróżnione wideo

Pliki do pobrania

Wymagane i opcjonalne wtyczki

Projekt demonstracyjny jest modularny – potrzebujesz tylko wtyczek dla dostawców, których chcesz używać.

WtyczkaPrzeznaczenieWymagana?
Runtime MetaHuman Lip SyncAnimacja synchronizacji ruchu warg✅ Zawsze
Runtime Audio ImporterPrzechwytywanie i przetwarzanie dźwięku✅ Zawsze
Runtime Speech RecognizerRozpoznawanie mowy offline (whisper.cpp)✅ Zawsze
Runtime AI Chatbot IntegratorZewnętrzne LLM (OpenAI, Claude, DeepSeek, Gemini, Grok, Ollama) i/lub zewnętrzny TTS (OpenAI, ElevenLabs)🔶 Opcjonalne*
Runtime Local LLMWnioskowanie lokalnego LLM przez llama.cpp (Llama, Mistral, Gemma, itp., modele GGUF)🔶 Opcjonalne*
Runtime Text To SpeechLokalny TTS przez Piper i Kokoro🔶 Opcjonalne*

* Potrzebujesz co najmniej jednego dostawcy LLM i co najmniej jednego dostawcy TTS. Mieszaj i dopasowuj dowolnie (np. lokalny LLM + ElevenLabs TTS lub OpenAI LLM + lokalny TTS).

Content/
└── Modules/
├── RuntimeAIChatbotIntegrator/ ← External LLMs and/or external TTS
├── RuntimeLocalLLM/ ← Local LLM via llama.cpp
└── RuntimeTextToSpeech/ ← Local TTS via Piper/Kokoro

Jeśli nie udało Ci się zdobyć jednej (lub więcej) wtyczek opcjonalnych, po prostu usuń odpowiednie foldery. Podstawowe zasoby projektu demo (instancja gry, widgety itp.) nie odwołują się bezpośrednio do tych modułów, więc ich usunięcie nie spowoduje błędów odwołań. Interfejs konfiguracyjny automatycznie ukryje każdego dostawcę, którego folder jest nieobecny.

notatka

Ta modułowość dotyczy wyłącznie dostawców LLM i TTS. Rozpoznawanie mowy (Runtime Speech Recognizer) i synchronizacja ruchu warg (Runtime MetaHuman Lip Sync) są częścią bazowego projektu demo i są zawsze wymagane.

Struktura folderów modułów

ostrzeżenie

Przy pierwszym uruchomieniu Unreal może zapytać, czy wyłączyć brakujące opcjonalne wtyczki – kliknij Tak. Upewnij się, że usunąłeś również odpowiadający folder Content/Modules/ (zobacz wyżej).

Układ projektu demo

Interfejs służy celom demonstracyjnym

Pokazany poniżej interfejs użytkownika został zbudowany w całości przy użyciu UMG (Unreal Motion Graphics) i służy wyłącznie do prezentacji potoku – rozpoznawanie mowy → LLM → TTS → synchronizacja ruchu warg. Możesz przebudować go lub zastąpić, aby dopasować do wizualnego stylu swojej gry, schematu sterowania czy platformy (VR/AR, mobilne, konsola itp.). Jeśli niektóre widgety nie są potrzebne w Twoim przypadku, możesz je również po prostu ukryć (np. ustawić ich widoczność na Collapsed lub Hidden).

Opisana grafika głównego ekranu projektu demo

ObszarCo się tam znajduje
ŚrodekPostać MetaHuman.
Lewa stronaCztery przyciski konfiguracyjne (rozpoznawanie mowy, chatbot AI, synteza mowy, animacje), szczegółowo opisane poniżej.
Dolna część środkowaPrzycisk Rozpocznij nagrywanie. Kliknij go, aby rozpocząć rozmowę głosową: Twój mikrofon jest przechwytywany, transkrybowany, wysyłany do LLM, odpowiedź jest syntezowana przez TTS i odtwarzana z synchronizacją ruchu warg, całkowicie bez użycia rąk.
Prawy środekWidget historii rozmowy pokazujący całą wymianę zdań między Tobą a AI (zarówno wiadomości użytkownika, jak i asystenta). Zawiera również pole wprowadzania tekstu, dzięki czemu możesz wpisywać wiadomości bezpośrednio bez używania rozpoznawania mowy, przydatne do testów, dla dostępności lub gdy mikrofon jest niedostępny.
wskazówka

W tej samej sesji możesz swobodnie mieszać oba tryby wprowadzania – mówić niektóre wiadomości, inne wpisywać.

Przyciski konfiguracyjne

Cztery przyciski konfiguracyjne po lewej otwierają dedykowane panele dla każdej części potoku:

1. Skonfiguruj rozpoznawanie mowy

Skonfiguruj sposób przechwytywania i transkrypcji głosu użytkownika:

  • Wybierz język
  • Dostosuj parametry rozpoznawania mowy (ustawienia modelu Whisper)
  • Skonfiguruj AEC (Acoustic Echo Cancellation)
  • Skonfiguruj VAD (Voice Activity Detection)

Ekran konfiguracji rozpoznawania mowy

2. Skonfiguruj chatbota AI

Wybierz dostawcę LLM i skonfiguruj go:

  • Wybierz dostawcę (Runtime AI Chatbot Integrator lub Runtime Local LLM)
  • Dla dostawców zewnętrznych: token uwierzytelniający, nazwa modelu itp.
  • Dla lokalnego LLM: wybierz model GGUF, ustaw rozmiar kontekstu i inne parametry inferencji. Możesz też pobrać własny model GGUF w czasie działania bezpośrednio z demo (np. przez URL) i natychmiast go używać bez ponownego budowania projektu.
wskazówka

Lista rozwijana dostawców pokazuje tylko tych, których folder modułu wtyczki znajduje się w Content/Modules/.

Konfiguracja chatbota AI – Runtime AI Chatbot Integrator (zewnętrzny LLM)

Konfiguracja chatbota AI – Runtime Local LLM (lokalny GGUF)

3. Skonfiguruj syntezę mowy

Wybierz dostawcę TTS i skonfiguruj głosy/modele:

  • Wybierz dostawcę (Runtime AI Chatbot Integrator dla OpenAI/ElevenLabs lub Runtime Text To Speech dla lokalnego Piper/Kokoro)
  • Wybierz głos/model
  • Dostosuj parametry specyficzne dla dostawcy

Konfiguracja TTS – Runtime AI Chatbot Integrator (zewnętrzny TTS)

Konfiguracja TTS – Runtime Local Text To Speech (lokalny Piper/Kokoro)

4. Skonfiguruj animacje

Kontroluj wygląd swojego NPC AI:

  • Wybierz spośród 3 wstępnie pobranych postaci MetaHuman (Aera, Ada, Orlando)
  • Wybierz model synchronizacji ruchu warg (Standard lub Realistic)
  • Wybierz typ modelu synchronizacji ruchu warg - Highly Optimized, Semi-Optimized lub Original (zobacz Typ modelu)
  • Dostosuj Rozmiar porcji przetwarzania – kontroluje częstotliwość wykonywania inferencji synchronizacji ruchu warg (zobacz Rozmiar porcji przetwarzania)
  • Wybierz animację bezczynności do odtwarzania na MetaHumanie podczas rozmowy

Ekran konfiguracji animacji

Wstępna konfiguracja demo w edytorze

Podczas pracy z wersją źródłową możesz wstępnie wypełnić ustawienia domyślne bezpośrednio w edytorze, aby wartości nie musiały być ponownie wprowadzane przy każdym uruchomieniu:

CoGdzie
Ustawienia ogólne (model synchronizacji ruchu warg, animacja bezczynności, klasa postaci, rozpoznawanie mowy itp.)Content/LipSyncSTSGameInstance
Ustawienia zewnętrznego LLM / zewnętrznego TTS (Runtime AI Chatbot Integrator)Content/Modules/RuntimeAIChatbotIntegrator/RuntimeAIChatbotIntegrator_Provider
Ustawienia lokalnego LLM (Runtime Local LLM)Content/Modules/RuntimeLocalLLM/RuntimeLocalLLM_Provider
Ustawienia lokalnego TTS (Runtime Text To Speech)Content/Modules/RuntimeTextToSpeech/RuntimeTextToSpeech_Provider

Uwagi dotyczące wielu platform

Wszystkie wtyczki używane w demo wspierają systemy Windows, Mac, Linux, iOS, Android oraz platformy oparte na Androidzie (w tym Meta Quest), więc projekt demo działa również na nich wszystkich.

Dla słabszych urządzeń (mobilnych, samodzielnego VR) warto rozważyć:

  • Użycie modelu Standard synchronizacji ruchu warg zamiast Realistic – zobacz Porównanie modeli
  • Przełączenie na typ Highly Optimized
  • Zwiększenie Rozmiaru porcji przetwarzania, aby zmniejszyć obciążenie CPU
  • Wybór mniejszych modeli LLM / TTS

Zobacz Konfiguracja specyficzna dla platformy w celu uzyskania dodatkowych kroków konfiguracji na Androidzie, iOS, Macu i Linuksie.

Wprowadzanie własnego MetaHumana

Projekt demo zawiera trzy przykładowe postacie MetaHuman (Aera, Ada, Orlando), ale możesz zaimportować własnego MetaHumana i użyć go w demo.

📺 Samouczek wideo: Dodawanie niestandardowej postaci MetaHuman do projektu demo

notatka

Sama wtyczka Runtime MetaHuman Lip Sync wspiera wiele innych systemów postaci poza MetaHumanami (postacie oparte na ARKit, Daz Genesis 8/9, Reallusion CC3/CC4, Mixamo, ReadyPlayerMe itp. – zobacz Przewodnik konfiguracji niestandardowych postaci).

Uwagi dotyczące modelu Standard Lip Sync

Jeśli planujesz używać modelu Standard (zamiast Realistic) w którymkolwiek projekcie demo, musisz zainstalować wtyczkę Standard Lip Sync Extension. Zobacz Rozszerzenie modelu Standard w celu uzyskania instrukcji instalacji.

Potrzebujesz pomocy?

Jeśli napotkasz jakiekolwiek problemy podczas konfigurowania lub uruchamiania projektów demo, skontaktuj się z nami:

Join our Discord
online · support

W przypadku zapytań o niestandardowe rozwiązania programistyczne (np. rozszerzanie demo o własną logikę, dostosowywanie go do konkretnej platformy lub potoku postaci), skontaktuj się z [email protected].