Przegląd

Runtime MetaHuman Lip Sync to wtyczka umożliwiająca animację ust w czasie rzeczywistym, offline oraz na wielu platformach, zarówno dla postaci MetaHuman, jak i niestandardowych. Pozwala animować usta postaci w odpowiedzi na dźwięk wejściowy z różnych źródeł, w tym:
- Wejście z mikrofonu za pomocą capturable sound wave z Runtime Audio Importer
- Syntezowana mowa z Runtime Text To Speech lub Runtime AI Chatbot Integrator
- Przesyłane strumieniowo lub importowane dane audio w wielu formatach za pomocą Runtime Audio Importer
- Dowolne dane audio w formacie float PCM (tablica próbek zmiennoprzecinkowych)
Wtyczka wewnętrznie generuje wizemy (wizualne reprezentacje fonemów) na podstawie wejścia audio. Ponieważ działa bezpośrednio na danych audio, a nie na tekście, wtyczka obsługuje wielojęzyczne wejście, w tym między innymi angielski, hiszpański, francuski, niemiecki, japoński, chiński, koreański, rosyjski, włoski, portugalski, arabski i hindi. Dosłownie każdy język jest obsługiwany, ponieważ synchronizacja ust jest generowana z fonemów dźwiękowych, a nie z przetwarzania tekstu specyficznego dla języka.
Model Standardowy generuje 14 wizemów i wykonuje animację synchronizacji ust przy użyciu predefiniowanego zasobu poz. Natomiast Modele Realistyczne (dostępne wyłącznie dla postaci MetaHuman i opartych na ARKit) generują 81 zmian kontroli twarzy bez polegania na predefiniowanym zasobie poz, co skutkuje znacznie bardziej realistycznymi animacjami mimiki.
Kompatybilność z Postaciami
Pomimo swojej nazwy, Runtime MetaHuman Lip Sync działa z szerokim zakresem postaci, nie tylko z MetaHuman:
Popularne Komercyjne Systemy Postaci
- Postacie Daz Genesis 8/9
- Postacie Reallusion Character Creator 3/4 (CC3/CC4)
- Postacie Mixamo
- Awatary ReadyPlayerMe
Obsługa Standardów Animacji
- Systemy blendshape oparte na FACS
- Standard blendshape Apple ARKit
- Zestawy fonemów Preston Blair
- Systemy fonemów 3ds Max
- Dowolna postać z niestandardowymi celami morfowania (morph targets) dla wyrazów twarzy
Szczegółowe instrukcje dotyczące używania wtyczki z postaciami innymi niż MetaHuman znajdują się w Przewodniku konfiguracji postaci niestandardowych.
Podgląd Animacji
Sprawdź te krótkie animacje, aby zobaczyć jakość animacji synchronizacji ust generowanej przez wtyczkę dla różnych typów postaci i modeli:
Kluczowe funkcje
- Synchronizacja ruchu warg w czasie rzeczywistym z wejścia mikrofonowego
- Obsługa przetwarzania audio offline
- Kompatybilność międzyplatformowa z obsługą specyficzną dla modelu
- Obsługa wielu systemów postaci i standardów animacji
- Elastyczne mapowanie wizemów dla niestandardowych postaci
- Uniwersalna obsługa języków - działa z dowolnym językiem mówionym poprzez analizę audio
- Animacja twarzy uwzględniająca nastrój dla zwiększonej ekspresji
- Konfigurowalne typy wyjścia (pełna twarz lub tylko usta)
Modele synchronizacji warg
Wtyczka oferuje wiele modeli synchronizacji warg, aby sprostać różnym potrzebom projektu:
- Standard Model
- Realistic Model
- Mood-Enabled Realistic Model
Standardowy model synchronizacji warg zapewnia wydajną, międzyplatformową wydajność z szeroką kompatybilnością z postaciami:
- Działa z MetaHumanami i wszystkimi typami niestandardowych postaci
- Zoptymalizowany pod kątem wydajności w czasie rzeczywistym
- Niższe wymagania zasobowe
- Obsługa platform: Windows, Android, platformy oparte na Androidzie (w tym Meta Quest)
Aby używać Standard Model, musisz zainstalować dodatkową wtyczkę rozszerzającą. Zobacz sekcję Wymagania wstępne w celu uzyskania instrukcji instalacji.
Realistyczny model synchronizacji warg zapewnia zwiększoną wierność wizualną, szczególnie dla postaci MetaHuman:
- Kompatybilny z MetaHuman i postaciami opartymi na ARKit z zaawansowaną animacją twarzy (81 kontroli twarzy)
- Wyższa jakość wizualna z bardziej naturalnymi ruchami ust
- Nieco wyższe wymagania wydajnościowe
- Przetwarzanie audio strumieniowego dla aplikacji w czasie rzeczywistym
- Idealny do doświadczeń kinematograficznych i interakcji z postaciami z bliska
- Trzy poziomy optymalizacji: Oryginalny, Półoptymalizowany i Wysokooptymalizowany
- Konfigurowalne zestawy morph target (zobacz Wybór zestawu Morph Target)
- Obsługa platform: Windows, Mac, iOS, Linux, Android, platformy oparte na Androidzie (w tym Meta Quest)
Realistic Model jest zawarty w głównej wtyczce i nie wymaga żadnych dodatkowych rozszerzeń do użycia.
Realistyczny model z obsługą nastroju zapewnia animację twarzy świadomą emocji dla postaci MetaHuman:
- Kompatybilny z MetaHuman i postaciami opartymi na ARKit z animacją twarzy reagującą na nastrój (81 kontroli twarzy)
- 12 różnych typów nastroju (Neutralny, Szczęśliwy, Smutny, Pewny siebie, itp.)
- Konfigurowalna intensywność nastroju (0.0 do 1.0)
- Regulowalny czas wyprzedzenia dla lepszej synchronizacji (20ms do 200ms)
- Wybieralne typy wyjścia: Pełna twarz lub tylko usta
- Przetwarzanie audio strumieniowego dla aplikacji w czasie rzeczywistym
- Konfigurowalne zestawy morph target (zobacz Wybór zestawu Morph Target)
- Obsługa platform: Windows, Mac, iOS, Linux, Android, platformy oparte na Androidzie (w tym Meta Quest)
Mood-Enabled Realistic Model jest zawarty w głównej wtyczce i nie wymaga żadnych dodatkowych rozszerzeń do użycia.
Możesz wybrać odpowiedni model w oparciu o wymagania projektu dotyczące wydajności, kompatybilności z postaciami, jakości wizualnej, docelowej platformy i potrzeb funkcjonalnych.
Jak to działa
Wtyczka przetwarza wejście audio w następujący sposób:
- Dane audio są odbierane w formacie PCM typu float z określonymi kanałami i częstotliwością próbkowania
- Wtyczka przetwarza audio, aby wygenerować dane kontroli twarzy lub wizemy w zależności od modelu
- Dla modeli z obsługą nastroju, kontekst emocjonalny jest stosowany do animacji twarzy
- Dane animacji napędzają ruchy twarzy postaci w czasie rzeczywistym
Architektura wydajności
Runtime MetaHuman Lip Sync używa wnioskowania wyłącznie na CPU aby dostarczać spójne, niskopoziomowe wyniki synchronizacji warg odpowiednie dla aplikacji w czasie rzeczywistym. Domyślnie wtyczka wykonuje przetwarzanie synchronizacji warg co 10 milisekund (regulowalne - zobacz Konfiguracja wtyczki dla wszystkich dostępnych ustawień, w tym Rozmiar porcji przetwarzania, liczba wątków i inne parametry wydajności).
Przegląd architektury modelu
Modele synchronizacji warg używają kompaktowej sieci neuronowej opartej na transformatorach, która przetwarza audio poprzez analizę mel-spektrogramu. Ta lekka architektura jest specjalnie zaprojektowana dla wydajności w czasie rzeczywistym z efektywnym wnioskowaniem na CPU i minimalnym śladem pamięci.
Dlaczego wnioskowanie na CPU?
Dla małych, częstych operacji wnioskowania, takich jak synchronizacja warg w czasie rzeczywistym, przetwarzanie na CPU oferuje lepsze charakterystyki opóźnienia niż GPU. Przy rozmiarze wsadu 1 i interwałach wnioskowania 10-100ms, narzut GPU z transferów PCIe i uruchamiania kerneli często przekracza rzeczywisty czas obliczeń. Dodatkowo, w silnikach gier GPU jest już nasycone renderowaniem, shaderami i fizyką, tworząc rywalizację o zasoby, która wprowadza nieprzewidywalne skoki opóźnienia.
Kompatybilność sprzętowa
Wtyczka działa wydajnie na większości średniej i wyższej klasy CPU bez wymagania dedykowanego sprzętu graficznego, zapewniając wydajność w czasie rzeczywistym na platformach desktopowych, mobilnych i VR. Dla słabszego sprzętu możesz dostosować Typ modelu do Semi-Optimized lub Highly Optimized, lub zwiększyć Rozmiar porcji przetwarzania, aby utrzymać wydajność w czasie rzeczywistym przy nieco zmniejszonej responsywności.
Szybki start
Oto podstawowa konfiguracja do włączenia synchronizacji warg na twojej postaci:
- Dla postaci MetaHuman, postępuj zgodnie z Przewodnikiem konfiguracji
- Dla niestandardowych postaci, postępuj zgodnie z Przewodnikiem konfiguracji niestandardowej postaci
- Wybierz i skonfiguruj preferowany model synchronizacji warg
- Skonfiguruj przetwarzanie wejścia audio w swoim Blueprint
- Podłącz odpowiedni węzeł synchronizacji warg w Animation Blueprint
- Odtwórz audio i zobacz, jak twoja postać mówi z emocjami!
Dodatkowe zasoby
📦 Pobieranie i linki
Projekty demonstracyjne:
- Demo Mowa-na-Mowę (Pełny przepływ pracy AI):
- Pobierz spakowane demo (Windows) ⭐ NOWE
- Pobierz pliki źródłowe (UE 5.6+) ⭐ NOWE
- Pełny przepływ pracy: rozpoznawanie mowy + chatbot AI + TTS + synchronizacja warg
- Wymaga: Ta wtyczka + Runtime Audio Importer + Runtime Speech Recognizer + Runtime AI Chatbot Integrator, opcjonalnie: Runtime Text To Speech
- Podstawowe demo synchronizacji warg:
- Pobierz spakowane demo (Windows)
- Pobierz pliki źródłowe (UE 5.6+)
- Podstawowe przepływy pracy: wejście mikrofonowe, pliki audio, TTS
- Wymaga: Ta wtyczka + Runtime Audio Importer, opcjonalnie: Text To Speech / AI Chatbot
- Model standardowy wymaga małej wtyczki rozszerzającej (zobacz tutaj)
🎥 Samouczki wideo
Polecane dema:
Samouczki Realistic Model (Wysoka jakość):
- Synchronizacja warg wysokiej jakości z pliku/bufora audio
- Synchronizacja warg wysokiej jakości z kontrolą nastroju i lokalnym TTS
- Synchronizacja warg wysokiej jakości z ElevenLabs i OpenAI TTS
- Synchronizacja warg wysokiej jakości na żywo z mikrofonu
Samouczki Standard Model:
- Standardowa synchronizacja warg na żywo z mikrofonu
- Standardowa synchronizacja warg z lokalnym tekstem-na-mowę
- Standardowa synchronizacja warg z ElevenLabs i OpenAI TTS
Konfiguracja ogólna:
- Dodawanie niestandardowej postaci MetaHuman do projektu demonstracyjnego
- Samouczek wideo konfiguracji
- Przejście przez projekt demonstracyjny (starszy)
💬 Wsparcie
- Rozwój niestandardowy: [email protected] (dostosowane rozwiązania dla zespołów i organizacji)