Przejdź do głównej zawartości

Konfiguracja Wtyczki

Konfiguracja Modelu

Standardowa Konfiguracja Modelu

Węzeł Create Runtime Viseme Generator używa domyślnych ustawień, które sprawdzają się dobrze w większości scenariuszy. Konfiguracja jest obsługiwana poprzez właściwości węzła mieszania w Animation Blueprint.

Aby poznać opcje konfiguracji Animation Blueprint, zobacz sekcję Konfiguracja Synchronizacji Warg poniżej.

Konfiguracja Realistycznego Modelu

Węzeł Create Realistic MetaHuman Lip Sync Generator akceptuje opcjonalny parametr Configuration, który pozwala dostosować zachowanie generatora:

Typ Modelu

Ustawienie Model Type określa, której wersji realistycznego modelu użyć:

Typ ModeluWydajnośćJakość WizualnaObsługa SzumuZalecane Zastosowania
Wysoko Zoptymalizowany (Domyślny)Najwyższa wydajność, najniższe użycie CPUDobra jakośćMoże pokazywać zauważalne ruchy ust przy szumie tła lub dźwiękach innych niż głosCzyste środowiska audio, scenariusze krytyczne pod względem wydajności
Częściowo ZoptymalizowanyDobra wydajność, umiarkowane użycie CPUWysoka jakośćLepsza stabilność z zaszumionym audioZrównoważona wydajność i jakość, mieszane warunki audio
OryginalnyNadaje się do użycia w czasie rzeczywistym na nowoczesnych CPUNajwyższa jakośćNajbardziej stabilny z szumem tła i dźwiękami innymi niż głosProdukcje wysokiej jakości, zaszumione środowiska audio, gdy potrzebna jest maksymalna dokładność

Ustawienia Wydajności

Intra Op Threads: Kontroluje liczbę wątków używanych do wewnętrznych operacji przetwarzania modelu.

  • 0 (Domyślne/Automatyczne): Używa automatycznego wykrywania (zazwyczaj 1/4 dostępnych rdzeni CPU, maksymalnie 4)
  • 1-16: Ręczne określenie liczby wątków. Wyższe wartości mogą poprawić wydajność na systemach wielordzeniowych, ale zużywają więcej CPU

Inter Op Threads: Kontroluje liczbę wątków używanych do równoległego wykonywania różnych operacji modelu.

  • 0 (Domyślne/Automatyczne): Używa automatycznego wykrywania (zazwyczaj 1/8 dostępnych rdzeni CPU, maksymalnie 2)
  • 1-8: Ręczne określenie liczby wątków. Zwykle utrzymywane niskie dla przetwarzania w czasie rzeczywistym

Rozmiar Porcji Przetwarzania

Processing Chunk Size określa, ile próbek jest przetwarzanych w każdym kroku wnioskowania. Wartość domyślna to 160 próbek (10ms audio przy 16kHz):

  • Mniejsze wartości zapewniają częstsze aktualizacje, ale zwiększają użycie CPU
  • Większe wartości zmniejszają obciążenie CPU, ale mogą zmniejszyć responsywność synchronizacji warg
  • Zaleca się używanie wielokrotności 160 dla optymalnego wyrównania

Ustawianie Rozmiaru Porcji Przetwarzania

Konfiguracja Modelu z Obsługą Nastroju

Węzeł Create Realistic MetaHuman Lip Sync With Mood Generator zapewnia dodatkowe opcje konfiguracji poza podstawowym modelem realistycznym:

Podstawowa Konfiguracja

Lookahead Ms: Czas wyprzedzenia w milisekundach dla poprawionej dokładności synchronizacji warg.

  • Domyślne: 80ms
  • Zakres: 20ms do 200ms (musi być podzielne przez 20)
  • Wyższe wartości zapewniają lepszą synchronizację, ale zwiększają opóźnienie

Output Type: Kontroluje, które kontrolki twarzy są generowane.

  • Full Face: Wszystkie 81 kontrolek twarzy (brwi, oczy, nos, usta, szczęka, język)
  • Mouth Only: Tylko kontrolki związane z ustami, szczęką i językiem

Performance Settings: Używa tych samych ustawień Intra Op Threads i Inter Op Threads co zwykły model realistyczny.

Ustawienia Nastroju

Dostępne Nastroje:

  • Neutralny, Szczęśliwy, Smutny, Odraza, Gniew, Zaskoczenie, Strach
  • Pewny siebie, Podekscytowany, Znudzony, Zabawowy, Zdezorientowany

Intensywność Nastroju: Kontroluje, jak mocno nastrój wpływa na animację (0.0 do 1.0)

Kontrola Nastroju w Czasie Rzeczywistym

Możesz dostosować ustawienia nastroju podczas działania za pomocą następujących funkcji:

  • Set Mood: Zmień aktualny typ nastroju
  • Set Mood Intensity: Dostosuj, jak mocno nastrój wpływa na animację (0.0 do 1.0)
  • Set Lookahead Ms: Zmodyfikuj czas wyprzedzenia dla synchronizacji
  • Set Output Type: Przełącz między kontrolkami Full Face i Mouth Only

Konfiguracja Nastroju

Przewodnik Wyboru Nastroju

Wybierz odpowiednie nastroje na podstawie treści:

NastrójNajlepszy dlaTypowy Zakres Intensywności
NeutralnyOgólna rozmowa, narracja, stan domyślny0.5 - 1.0
SzczęśliwyPozytywne treści, radosny dialog, świętowanie0.6 - 1.0
SmutnyMelancholijne treści, emocjonalne sceny, ponure momenty0.5 - 0.9
OdrazaNegatywne reakcje, treści niesmaczne, odrzucenie0.4 - 0.8
GniewAgresywny dialog, konfrontacyjne sceny, frustracja0.6 - 1.0
ZaskoczenieNieoczekiwane wydarzenia, objawienia, reakcje szoku0.7 - 1.0
StrachGroźne sytuacje, niepokój, nerwowy dialog0.5 - 0.9
Pewny siebiePrezentacje zawodowe, dialog przywódczy, asertywna mowa0.7 - 1.0
PodekscytowanyEnergetyczne treści, ogłoszenia, entuzjastyczny dialog0.8 - 1.0
ZnudzonyMonotonne treści, niezainteresowany dialog, zmęczona mowa0.3 - 0.7
ZabawowySwobodna rozmowa, humor, lekkie interakcje0.6 - 0.9
ZdezorientowanyDialog z wieloma pytaniami, niepewność, oszołomienie0.4 - 0.8

Konfiguracja Animation Blueprint

Konfiguracja Synchronizacji Warg

Węzeł Blend Runtime MetaHuman Lip Sync ma opcje konfiguracji w panelu właściwości:

WłaściwośćDomyślneOpis
Interpolation Speed25Kontroluje, jak szybko ruchy warg przechodzą między wizemami. Wyższe wartości skutkują szybszymi, bardziej nagłymi przejściami.
Reset Time0.2Czas w sekundach, po którym synchronizacja warg jest resetowana. Przydatne, aby zapobiec kontynuacji synchronizacji warg po zatrzymaniu audio.

Animacja Śmiechu

Możesz również dodać animacje śmiechu, które będą dynamicznie reagować na śmiech wykryty w audio:

  1. Dodaj węzeł Blend Runtime MetaHuman Laughter
  2. Podłącz swoją zmienną RuntimeVisemeGenerator do pinu Viseme Generator
  3. Jeśli już używasz synchronizacji warg:
    • Podłącz wyjście z węzła Blend Runtime MetaHuman Lip Sync do Source Pose węzła Blend Runtime MetaHuman Laughter
    • Podłącz wyjście węzła Blend Runtime MetaHuman Laughter do pinu Result w Output Pose
  4. Jeśli używasz tylko śmiechu bez synchronizacji warg:
    • Podłącz swoją pozę źródłową bezpośrednio do Source Pose węzła Blend Runtime MetaHuman Laughter
    • Podłącz wyjście do pinu Result

Blend Runtime MetaHuman Laughter

Gdy śmiech zostanie wykryty w audio, twoja postać będzie dynamicznie animowana odpowiednio:

Śmiech

Konfiguracja Śmiechu

Węzeł Blend Runtime MetaHuman Laughter ma własne opcje konfiguracji:

WłaściwośćDomyślneOpis
Interpolation Speed25Kontroluje, jak szybko ruchy warg przechodzą między animacjami śmiechu. Wyższe wartości skutkują szybszymi, bardziej nagłymi przejściami.
Reset Time0.2Czas w sekundach, po którym śmiech jest resetowany. Przydatne, aby zapobiec kontynuacji śmiechu po zatrzymaniu audio.
Max Laughter Weight0.7Skaluje maksymalną intensywność animacji śmiechu (0.0 - 1.0).

Uwaga: Wykrywanie śmiechu jest obecnie dostępne tylko z Modelem Standardowym.

Łączenie z Istniejącymi Animacjami

Aby zastosować synchronizację warg i śmiech wraz z istniejącymi animacjami ciała i niestandardowymi animacjami twarzy bez ich nadpisywania:

  1. Dodaj węzeł Layered blend per bone między animacjami ciała a końcowym wyjściem. Upewnij się, że Use Attached Parent jest ustawione na true.
  2. Skonfiguruj ustawienia warstw:
    • Dodaj 1 element do tablicy Layer Setup
    • Dodaj 3 elementy do Branch Filters dla warstwy, z następującymi Bone Name:
      • FACIAL_C_FacialRoot
      • FACIAL_C_Neck2Root
      • FACIAL_C_Neck1Root
  3. Ważne dla niestandardowych animacji twarzy: W Curve Blend Option wybierz "Use Max Value". Pozwala to na prawidłowe nakładanie niestandardowych animacji twarzy (wyrazy, emocje itp.) na synchronizację warg.
  4. Wykonaj połączenia:
    • Istniejące animacje (takie jak BodyPose) → wejście Base Pose
    • Wyjście animacji twarzy (z węzłów synchronizacji warg i/lub śmiechu) → wejście Blend Poses 0
    • Węzeł warstwowego mieszania → końcowa poza Result

Layered Blend Per Bone

Wybór Zestawu Morph Target

Model Standardowy używa zasobów poz, które z natury wspierają dowolną konwencję nazewnictwa morph target poprzez konfigurację niestandardowego zasobu pozy. Nie jest potrzebna dodatkowa konfiguracja.

Precyzyjne Dostrajanie Zachowania Synchronizacji Warg

Kontrola Wysuwania Języka

W standardowym modelu synchronizacji warg możesz zauważyć nadmierne wysuwanie języka do przodu podczas niektórych fonemów. Aby kontrolować wysuwanie języka:

  1. Po węźle mieszania synchronizacji warg dodaj węzeł Modify Curve
  2. Kliknij prawym przyciskiem myszy na węźle Modify Curve i wybierz Add Curve Pin
  3. Dodaj pin krzywej z nazwą CTRL_expressions_tongueOut
  4. Ustaw właściwość Apply Mode węzła na Scale
  5. Dostosuj parametr Value, aby kontrolować wysunięcie języka (np. 0.8, aby zmniejszyć wysunięcie o 20%)

Kontrola Otwarcia Szczęki

Realistyczna synchronizacja warg może generować nadmiernie responsywne ruchy szczęki w zależności od treści audio i wymagań wizualnych. Aby dostosować intensywność otwarcia szczęki:

  1. Po węźle mieszania synchronizacji warg dodaj węzeł Modify Curve
  2. Kliknij prawym przyciskiem myszy na węźle Modify Curve i wybierz Add Curve Pin
  3. Dodaj pin krzywej z nazwą CTRL_expressions_jawOpen
  4. Ustaw właściwość Apply Mode węzła na Scale
  5. Dostosuj parametr Value, aby kontrolować zakres otwarcia szczęki (np. 0.9, aby zmniejszyć ruch szczęki o 10%)

Precyzyjne Dostrajanie Specyficzne dla Nastroju

Dla modeli z obsługą nastroju możesz precyzyjnie dostroić specyficzne wyrazy emocjonalne:

Kontrola Brwi:

  • CTRL_expressions_browRaiseInL / CTRL_expressions_browRaiseInR - Podnoszenie wewnętrznej części brwi
  • CTRL_expressions_browRaiseOuterL / CTRL_expressions_browRaiseOuterR - Podnoszenie zewnętrznej części brwi
  • CTRL_expressions_browDownL / CTRL_expressions_browDownR - Opuszczanie brwi

Kontrola Wyrazu Oczu:

  • CTRL_expressions_eyeSquintInnerL / CTRL_expressions_eyeSquintInnerR - Mrużenie oczu
  • CTRL_expressions_eyeCheekRaiseL / CTRL_expressions_eyeCheekRaiseR - Podnoszenie policzków

Porównanie i Wybór Modelu

Wybór Między Modelami

Decydując, którego modelu synchronizacji warg użyć w swoim projekcie, rozważ te czynniki:

RozważanieModel StandardowyModel RealistycznyModel Realistyczny z Obsługą Nastroju
Kompatybilność z PostaciamiMetaHumans i wszystkie typy niestandardowych postaciTylko MetaHumansTylko MetaHumans
Jakość WizualnaDobra synchronizacja warg z wydajną wydajnościąZwiększony realizm z bardziej naturalnymi ruchami ustZwiększony realizm z wyrażeniami emocjonalnymi
WydajnośćZoptymalizowany dla wszystkich platform, w tym mobilnych/VRWyższe wymagania zasoboweWyższe wymagania zasobowe
Funkcje14 wizemów, wykrywanie śmiechu81 kontrolek twarzy, 3 poziomy optymalizacji81 kontrolek twarzy, 12 nastrojów, konfigurowalne wyjście
Wsparcie PlatformWindows, Android, QuestWindows, Mac, iOS, Linux, Android, QuestWindows, Mac, iOS, Linux, Android, Quest
ZastosowaniaAplikacje ogólne, gry, VR/AR, mobilneDoświadczenia filmowe, interakcje z bliskaOpowiadanie emocjonalne, zaawansowana interakcja z postaciami

Kompatybilność z Wersją Silnika

Problem z Kompatybilnością UE 5.2

Jeśli używasz Unreal Engine 5.2, modele Realistyczne mogą nie działać poprawnie z powodu błędu w bibliotece próbkowania UE. Dla użytkowników UE 5.2, którzy potrzebują niezawodnej funkcjonalności synchronizacji warg, proszę używać Modelu Standardowego zamiast tego.

Ten problem jest specyficzny dla UE 5.2 i nie dotyczy innych wersji silnika.

Zalecenia Wydajnościowe

  • Dla większości projektów Model Standardowy zapewnia doskonałą równowagę jakości i wydajności
  • Użyj Modelu Realistycznego, gdy potrzebujesz najwyższej wierności wizualnej dla postaci MetaHuman
  • Użyj Modelu Realistycznego z Obsługą Nastroju, gdy kontrola wyrażania emocji jest ważna dla twojej aplikacji
  • Rozważ możliwości wydajnościowe platformy docelowej przy wyborze między modelami
  • Przetestuj różne poziomy optymalizacji, aby znaleźć najlepszą równowagę dla swojego konkretnego przypadku użycia

Kompatybilność z TTS

Typ ModeluWsparcie Lokalnego TTS (poprzez Runtime Text To Speech)Wsparcie Zewnętrznego TTSUwagi
Model Standardowy✅ Pełne wsparcie✅ Pełne wsparcieKompatybilny ze wszystkimi opcjami TTS
Model Realistyczny❌ Ograniczone wsparcie✅ Pełne wsparcieKonflikty środowiska wykonawczego ONNX z lokalnym TTS
Model Realistyczny z Obsługą Nastroju✅ Pełne wsparcie✅ Pełne wsparcieKompatybilny ze wszystkimi opcjami TTS

Rozwiązywanie Problemów

Typowe Problemy

Ponowne Tworzenie Generatora dla Modeli Realistycznych: Dla niezawodnej i spójnej pracy z Modelami Realistycznymi zaleca się ponowne tworzenie generatora za każdym razem, gdy chcesz przekazać nowe dane audio po okresie bezczynności. Wynika to z zachowania środowiska wykonawczego ONNX, które może spowodować zatrzymanie działania synchronizacji warg przy ponownym używaniu generatorów po okresach ciszy.

Kompatybilność z Lokalnym TTS: Lokalny TTS dostarczany przez wtyczkę Runtime Text To Speech nie jest obecnie obsługiwany z regularnym modelem Realistycznym z powodu konfliktów środowiska wykonawczego ONNX. Jednak jest w pełni kompatybilny zarówno z modelem Standardowym, jak i modelem Realistycznym z Obsługą Nastroju. Użyj zewnętrznych usług TTS, jeśli konkretnie potrzebujesz regularnego modelu Realistycznego z funkcjonalnością TTS.

Obniżona Responsywność Synchronizacji Warg: Jeśli doświadczasz, że synchronizacja warg staje się mniej responsywna w czasie przy użyciu Streaming Sound Wave lub Capturable Sound Wave, może to być spowodowane akumulacją pamięci. Domyślnie pamięć jest realokowana za każdym razem, gdy nowe audio jest dołączane. Aby zapobiec temu problemowi, wywołaj funkcję ReleaseMemory okresowo, aby zwolnić zgromadzoną pamięć, na przykład co 30 sekund lub podobnie.

Optymalizacja Wydajności:

  • Dostosuj Processing Chunk Size dla modeli Realistycznych na podstawie wymagań wydajnościowych
  • Używaj odpowiednich liczby wątków dla docelowego sprzętu
  • Rozważ użycie typu wyjścia Mouth Only dla modeli z obsługą nastroju, gdy pełna animacja twarzy nie jest potrzebna