Przegląd

Runtime MetaHuman Lip Sync to wtyczka umożliwiająca synchronizację ruchu warg w czasie rzeczywistym, offline i międzyplatformowo zarówno dla postaci MetaHuman, jak i niestandardowych. Pozwala animować usta postaci w odpowiedzi na dźwięk wejściowy z różnych źródeł, w tym:
- Wejście z mikrofonu za pomocą przechwytywalnej fali dźwiękowej Runtime Audio Importer
- Syntezowana mowa z Runtime Text To Speech lub Runtime AI Chatbot Integrator
- Przesyłane strumieniowo lub importowane dane audio w wielu formatach za pomocą Runtime Audio Importer
- Dowolne dane audio w formacie float PCM (tablica próbek zmiennoprzecinkowych)
Wtyczka wewnętrznie generuje wizemy (wizualne reprezentacje fonemów) na podstawie wejścia audio. Ponieważ działa bezpośrednio z danymi audio, a nie z tekstem, wtyczka obsługuje wielojęzyczne wejście, w tym między innymi angielski, hiszpański, francuski, niemiecki, japoński, chiński, koreański, rosyjski, włoski, portugalski, arabski i hindi. Dosłownie każdy język jest obsługiwany, ponieważ synchronizacja warg jest generowana z fonemów audio, a nie z przetwarzania tekstu specyficznego dla języka.
Model Standardowy produkuje 14 wizemów i wykonuje animację synchronizacji warg przy użyciu predefiniowanego zasobu poz. Natomiast Modele Realistyczne (wyłączne dla postaci MetaHuman) generują 81 zmian kontroli twarzy bez polegania na predefiniowanym zasobie poz, co skutkuje znacznie bardziej realistycznymi animacjami twarzy.
Kompatybilność z Postaciami
Pomimo swojej nazwy, Runtime MetaHuman Lip Sync działa z szerokim zakresem postaci, nie tylko z MetaHumanami:
Popularne Komercyjne Systemy Postaci
- Postacie Daz Genesis 8/9
- Postacie Reallusion Character Creator 3/4 (CC3/CC4)
- Postacie Mixamo
- Awatary ReadyPlayerMe
Obsługa Standardów Animacji
- Systemy blendshape oparte na FACS
- Standard blendshape Apple ARKit
- Zestawy fonemów Preston Blair
- Systemy fonemów 3ds Max
- Dowolna postać z niestandardowymi celami morfowania dla wyrazów twarzy
Szczegółowe instrukcje dotyczące używania wtyczki z postaciami innymi niż MetaHuman znajdują się w Przewodniku konfiguracji postaci niestandardowych.
Podgląd Animacji
Sprawdź te krótkie animacje, aby zobaczyć jakość animacji synchronizacji warg produkowanej przez wtyczkę w różnych typach postaci i modelach:
Kluczowe Funkcje
- Synchronizacja ruchu warg w czasie rzeczywistym z wejścia mikrofonowego
- Obsługa przetwarzania audio offline
- Kompatybilność międzyplatformowa z obsługą specyficzną dla modelu i platformy
- Obsługa wielu systemów postaci i standardów animacji
- Elastyczne mapowanie wizemów dla niestandardowych postaci
- Uniwersalne wsparcie języków - działa z dowolnym językiem mówionym poprzez analizę audio
- Animacja twarzy uwzględniająca nastrój dla zwiększonej ekspresji
- Konfigurowalne typy wyjścia (pełna twarz lub tylko usta)
Modele Synchronizacji Warg
Wtyczka oferuje wiele modeli synchronizacji warg, aby sprostać różnym potrzebom projektu:
- Model Standardowy
- Model Realistyczny
- Model Realistyczny z Obsługą Nastroju
Standardowy model synchronizacji warg zapewnia wydajną, międzyplatformową wydajność z szeroką kompatybilnością postaci:
- Działa z MetaHumanami i wszystkimi typami postaci niestandardowych
- Zoptymalizowany pod kątem wydajności w czasie rzeczywistym
- Niższe wymagania zasobowe
- Obsługa Platform: Windows, Android, platformy oparte na Androidzie (w tym Meta Quest)
Aby używać Modelu Standardowego, musisz zainstalować dodatkową wtyczkę rozszerzającą. Zobacz sekcję Wymagania wstępne w celu uzyskania instrukcji instalacji.
Realistyczny model synchronizacji warg zapewnia zwiększoną wierność wizualną, szczególnie dla postaci MetaHuman:
- Kompatybilny z MetaHumanami i postaciami opartymi na ARKit z zaawansowaną animacją twarzy (81 kontrolerów twarzy)
- Wyższa jakość wizualna z bardziej naturalnymi ruchami ust
- Nieco wyższe wymagania wydajnościowe
- Przetwarzanie audio strumieniowego dla aplikacji w czasie rzeczywistym
- Idealny do doświadczeń kinowych i interakcji z postaciami z bliska
- Trzy poziomy optymalizacji: Oryginalny, Półoptymalizowany i Wysokooptymalizowany
- Konfigurowalne zestawy morph target (zobacz Wybór Zestawu Morph Target)
- Obsługa Platform: Windows, Mac, iOS, Linux, Android, platformy oparte na Androidzie (w tym Meta Quest)
Model Realistyczny jest zawarty w głównej wtyczce i nie wymaga żadnych dodatkowych rozszerzeń do użycia.
Realistyczny model z obsługą nastroju zapewnia animację twarzy świadomą emocji dla postaci MetaHuman:
- Kompatybilny z MetaHumanami i postaciami opartymi na ARKit z animacją twarzy reagującą na nastrój (81 kontrolerów twarzy)
- 12 różnych typów nastroju (Neutralny, Szczęśliwy, Smutny, Pewny siebie, itp.)
- Konfigurowalna intensywność nastroju (od 0.0 do 1.0)
- Regulowalny czas wyprzedzenia dla lepszej synchronizacji (od 20ms do 200ms)
- Wybieralne typy wyjścia: Pełna Twarz lub tylko Kontrola Ust
- Przetwarzanie audio strumieniowego dla aplikacji w czasie rzeczywistym
- Konfigurowalne zestawy morph target (zobacz Wybór Zestawu Morph Target)
- Obsługa Platform: Windows, Mac, iOS, Linux, Android, platformy oparte na Androidzie (w tym Meta Quest)
Model Realistyczny z Obsługą Nastroju jest zawarty w głównej wtyczce i nie wymaga żadnych dodatkowych rozszerzeń do użycia.
Możesz wybrać odpowiedni model na podstawie wymagań twojego projektu dotyczących wydajności, kompatybilności postaci, jakości wizualnej, docelowej platformy i potrzeb funkcjonalnych.
Jak to Działa
Wtyczka przetwarza wejście audio w następujący sposób:
- Dane audio są odbierane w formacie PCM typu float z określonymi kanałami i częstotliwością próbkowania
- Wtyczka przetwarza audio, aby wygenerować dane kontrolne twarzy lub wizemy w zależności od modelu
- Dla modeli z obsługą nastroju, kontekst emocjonalny jest stosowany do animacji twarzy
- Dane animacji napędzają ruchy twarzy postaci w czasie rzeczywistym
Architektura Wydajności
Runtime MetaHuman Lip Sync wykorzystuje wnioskowanie wyłącznie na CPU w celu dostarczenia spójnych, niskopóźnieniowych wyników synchronizacji warg odpowiednich dla aplikacji w czasie rzeczywistym. Domyślnie wtyczka wykonuje przetwarzanie synchronizacji warg co 10 milisekund (regulowalne - zobacz Konfiguracja Wtyczki dla wszystkich dostępnych ustawień, w tym Rozmiar Porcji Przetwarzania, liczba wątków i inne parametry wydajności).
Przegląd Architektury Modelu
Modele synchronizacji warg wykorzystują kompaktową sieć neuronową opartą na transformatorach, która przetwarza audio poprzez analizę mel-spektrogramu. Ta lekka architektura jest specjalnie zaprojektowana dla wydajności w czasie rzeczywistym z efektywnym wnioskowaniem na CPU i minimalnym śladem pamięci.
Dlaczego Wnioskowanie na CPU?
Dla małych, częstych operacji wnioskowania, takich jak synchronizacja warg w czasie rzeczywistym, przetwarzanie na CPU oferuje lepsze charakterystyki opóźnienia niż GPU. Przy rozmiarze wsadu 1 i interwałach wnioskowania 10-100ms, narzut GPU związany z transferami PCIe i uruchamianiem kerneli często przekracza rzeczywisty czas obliczeń. Dodatkowo, w silnikach gier GPU jest już obciążone renderowaniem, shaderami i fizyką, co tworzy rywalizację o zasoby wprowadzającą nieprzewidywalne skoki opóźnienia.
Kompatybilność Sprzętowa
Wtyczka działa wydajnie na większości średniej klasy i wyższych CPU bez wymagania dedykowanego sprzętu graficznego, zapewniając wydajność w czasie rzeczywistym na platformach desktopowych, mobilnych i VR. Dla słabszego sprzętu możesz dostosować Typ Modelu do Półoptymalizowanego lub Wysokooptymalizowanego, lub zwiększyć Rozmiar Porcji Przetwarzania, aby utrzymać wydajność w czasie rzeczywistym przy nieco zmniejszonej responsywności.
Szybki Start
Oto podstawowa konfiguracja umożliwiająca synchronizację warg na twojej postaci:
- Dla postaci MetaHuman, postępuj zgodnie z Przewodnikiem Konfiguracji
- Dla postaci niestandardowych, postępuj zgodnie z Przewodnikiem Konfiguracji Postaci Niestandardowych
- Wybierz i skonfiguruj preferowany model synchronizacji warg
- Skonfiguruj przetwarzanie wejścia audio w swoim Blueprint
- Podłącz odpowiedni węzeł synchronizacji warg w Animation Blueprint
- Odtwórz audio i zobacz, jak twoja postać mówi z emocjami!
Dodatkowe Zasoby
📦 Pobieranie i Linki
Projekty Demo:
- Demo Mowa-na-Mowę (Pełny Przepływ Pracy AI):
- Pobierz spakowane demo (Windows) ⭐ NOWOŚĆ
- Pobierz pliki źródłowe (UE 5.6+) ⭐ NOWOŚĆ
- Pełny przepływ pracy: rozpoznawanie mowy + chatbot AI + TTS + synchronizacja warg
- Wymaga: Ta wtyczka + Runtime Audio Importer + Runtime Speech Recognizer + Runtime AI Chatbot Integrator, opcjonalnie: Runtime Text To Speech
- Podstawowe Demo Synchronizacji Warg:
- Pobierz spakowane demo (Windows)
- Pobierz pliki źródłowe (UE 5.6+)
- Podstawowe przepływy pracy: wejście mikrofonowe, pliki audio, TTS
- Wymaga: Ta wtyczka + Runtime Audio Importer, opcjonalnie: Text To Speech / AI Chatbot
- Model standardowy wymaga małej wtyczki rozszerzającej (zobacz tutaj)
🎥 Samouczki Wideo
Polecane Dema:
Samouczki Modelu Realistycznego (Wysokiej Jakości):
- Synchronizacja Warg Wysokiej Jakości z Kontrolą Nastroju i Lokalnym TTS
- Synchronizacja Warg Wysokiej Jakości z ElevenLabs i OpenAI TTS
- Synchronizacja Warg Wysokiej Jakości z Mikrofonu na Żywo
Samouczki Modelu Standardowego:
- Standardowa Synchronizacja Warg z Mikrofonu na Żywo
- Standardowa Synchronizacja Warg z Lokalnym Tekst-na-Mowę
- Standardowa Synchronizacja Warg z ElevenLabs i OpenAI TTS
Konfiguracja Ogólna:
💬 Wsparcie
- Serwer wsparcia na Discordzie
- Rozwój Niestandardowy: [email protected] (dostosowane rozwiązania dla zespołów i organizacji)