Przegląd

Runtime MetaHuman Lip Sync to wtyczka umożliwiająca synchronizację ruchu warg w czasie rzeczywistym, offline i międzyplatformowo zarówno dla postaci MetaHuman, jak i niestandardowych. Pozwala ona animować usta postaci w odpowiedzi na wejście audio z różnych źródeł, w tym:
- Wejście z mikrofonu poprzez przechwytywalną falę dźwiękową Runtime Audio Importer's
- Zsyntetyzowaną mowę z Runtime Text To Speech lub Runtime AI Chatbot Integrator
- Dowolne dane audio w formacie float PCM (tablica próbek zmiennoprzecinkowych)
Wtyczka wewnętrznie generuje wizemy (wizualne reprezentacje fonemów) na podstawie wejścia audio. Ponieważ działa bezpośrednio z danymi audio, a nie z tekstem, wtyczka obsługuje wielojęzyczne wejście, w tym między innymi angielski, hiszpański, francuski, niemiecki, japoński, chiński, koreański, rosyjski, włoski, portugalski, arabski i hindi. Dosłownie każdy język jest obsługiwany, ponieważ synchronizacja warg jest generowana z fonemów audio, a nie z przetwarzania tekstu specyficznego dla języka.
Model Standardowy produkuje 14 wizemów i wykonuje animację synchronizacji warg przy użyciu predefiniowanego zasobu pozy. Natomiast Modele Realistyczne (wyłączne dla postaci MetaHuman) generują 81 zmian kontroli twarzy bez polegania na predefiniowanym zasobie pozy, co skutkuje znacznie bardziej realistycznymi animacjami twarzy.
Kompatybilność z Postaciami
Pomimo swojej nazwy, Runtime MetaHuman Lip Sync działa z szerokim zakresem postaci wykraczającym poza same MetaHumany:
Popularne Komercyjne Systemy Postaci
- Postacie Daz Genesis 8/9
- Postacie Reallusion Character Creator 3/4 (CC3/CC4)
- Postacie Mixamo
- Awatary ReadyPlayerMe
Obsługa Standardów Animacji
- Systemy blendshape oparte na FACS
- Standard blendshape Apple ARKit
- Zestawy fonemów Preston Blair
- Systemy fonemów 3ds Max
- Dowolna postać z niestandardowymi celami morfowania dla wyrazów twarzy
Aby uzyskać szczegółowe instrukcje dotyczące używania wtyczki z postaciami innymi niż MetaHuman, zobacz Przewodnik konfiguracji postaci niestandardowej.
Podgląd Animacji
Sprawdź te krótkie animacje, aby zobaczyć jakość animacji synchronizacji warg produkowanej przez wtyczkę w różnych typach postaci i modelach:




Kluczowe Funkcje
- Synchronizacja ust w czasie rzeczywistym z wejścia mikrofonowego
- Obsługa przetwarzania dźwięku offline
- Kompatybilność międzyplatformowa z obsługą specyficzną dla modelu i platformy
- Obsługa wielu systemów postaci i standardów animacji
- Elastyczne mapowanie wizemów dla niestandardowych postaci
- Uniwersalna obsługa języków - działa z dowolnym językiem mówionym poprzez analizę dźwięku
- Animacja twarzy uwzględniająca nastrój dla lepszej ekspresji
- Konfigurowalne typy wyjścia (pełna kontrola twarzy lub kontrola tylko ust)
Modele Synchronizacji Ust
Wtyczka oferuje wiele modeli synchronizacji ust, aby sprostać różnym potrzebom projektu:
- Model Standardowy
- Model Realistyczny
- Realistyczny Model z Nastrojem
Standardowy model synchronizacji ust zapewnia wydajną, międzyplatformową pracę z szeroką kompatybilnością postaci:
- Działa z MetaHumans i wszystkimi typami niestandardowych postaci
- Zoptymalizowany pod kątem wydajności w czasie rzeczywistym
- Niższe wymagania zasobów
- Pełna kompatybilność z lokalnym TTS (wtyczka Runtime Text To Speech)
- Obsługa Platform: Windows, Android, platformy oparte na Androidzie (w tym Meta Quest)
Aby używać Modelu Standardowego, musisz zainstalować dodatkową wtyczkę rozszerzającą. Zobacz sekcję Wymagania wstępne w celu uzyskania instrukcji instalacji.
Realistyczny model synchronizacji ust zapewnia podwyższoną wierność wizualną, specjalnie dla postaci MetaHuman:
- Ekskluzywny dla MetaHuman z zaawansowaną animacją twarzy (81 kontrolek twarzy)
- Wyższa jakość wizualna z bardziej naturalnymi ruchami ust
- Nieco wyższe wymagania wydajnościowe
- Ograniczona obsługa lokalnego TTS (zalecane zewnętrzne usługi TTS)
- Idealny do doświadczeń kinowych i interakcji z postaciami z bliska
- Obsługa Platform: Windows, Mac, iOS, Linux
- Trzy poziomy optymalizacji: Oryginalny, Półoptymalizowany i Wysokooptymalizowany
Model Realistyczny jest zawarty w głównej wtyczce i nie wymaga żadnych dodatkowych rozszerzeń do użycia.
Realistyczny model z nastrojem zapewnia animację twarzy reagującą na emocje dla postaci MetaHuman:
- Ekskluzywny dla MetaHuman z animacją twarzy reagującą na nastrój
- 12 różnych typów nastroju (Neutralny, Szczęśliwy, Smutny, Pewny siebie, itp.)
- Konfigurowalna intensywność nastroju (od 0.0 do 1.0)
- Regulowalny czas wyprzedzenia dla lepszej synchronizacji (od 20ms do 200ms)
- Wybieralne typy wyjścia: Pełna kontrola twarzy lub kontrola tylko ust
- Przetwarzanie dźwięku strumieniowego dla aplikacji w czasie rzeczywistym
- Obsługa Platform: Windows, Mac, iOS, Linux
Model z Nastrojem zawiera zaawansowane funkcje, takie jak konfigurowalny czas wyprzedz i selektywną kontrolą wyjścia, co czyni ją idealną dla aplikacji wymagających kontroli ekspresji emocjonalnej.
Możesz wybrać odpowiedni model w oparciu o wymagania swojego projektu dotyczące wydajności, kompatybilności z postaciami, jakości wizualnej, platformy docelowej i potrzeb funkcjonalnych.
Chociaż wszystkie modele obsługują różne metody wprowadzania dźwięku, standardowy model Realistyczny ma ograniczoną kompatybilność z lokalnym TTS z powodu konfliktów środowiska wykonawczego ONNX. Model Realistyczny z Obsługą Nastrojów jest jednak w pełni kompatybilny z lokalnym TTS. W przypadku funkcji zamiany tekstu na mowę:
- Model Standardowy: Kompatybilny ze wszystkimi opcjami TTS (lokalnymi i zewnętrznymi)
- Model Realistyczny: Zalecane zewnętrzne usługi TTS (OpenAI, ElevenLabs)
- Model Realistyczny z Obsługą Nastrojów: Kompatybilny ze wszystkimi opcjami TTS (lokalnymi i zewnętrznymi)
Jak to działa
Wtyczka przetwarza wejście audio w następujący sposób:
- Dane audio są odbierane w formacie PCM typu float z określonymi kanałami i częstotliwością próbkowania
- Wtyczka przetwarza dźwięk, aby wygenerować dane sterowania mimiką lub wizemy w zależności od modelu
- W przypadku modeli z obsługą nastrojów, kontekst emocjonalny jest stosowany do animacji twarzy
- Dane animacji napędzają ruchy twarzy postaci w czasie rzeczywistym
Szybki start
Oto podstawowa konfiguracja umożliwiająca synchronizację ust twojej postaci:
- W przypadku postaci MetaHuman postępuj zgodnie z Przewodnikiem konfiguracji
- W przypadku postaci niestandardowych postępuj zgodnie z Przewodnikiem konfiguracji postaci niestandardowych
- Wybierz i skonfiguruj preferowany model synchronizacji ust
- Skonfiguruj przetwarzanie wejścia audio w swoim Blueprint
- Podłącz odpowiedni węzeł synchronizacji ust w Animation Blueprint
- Odtwórz dźwięk i zobacz, jak twoja postać mówi z emocjami!
Dodatkowe zasoby
📦 Pobieranie i linki
- Pobierz na Fab
- Strona produktu
- Pobierz Demo (Windows)
- Pobierz pliki źródłowe demo (UE 5.6) – Wymaga tej wtyczki + Runtime Audio Importer, opcjonalnie: Text To Speech / AI Chatbot. Model standardowy wymaga małej wtyczki rozszerzającej (patrz tutaj)
🎥 Samouczki wideo
Polecane demo:
Samouczki Modelu Realistycznego (Wysokiej Jakości):
- Synchronizacja Ust Wysokiej Jakości z Kontrolą Nastroju i Lokalnym TTS ⭐ NOWY
- Synchronizacja Ust Wysokiej Jakości z ElevenLabs i OpenAI TTS
- Synchronizacja Ust Wysokiej Jakości na Żywo z Mikrofonu
Samouczki Modelu Standardowego:
- Standardowa Synchronizacja Ust na Żywo z Mikrofonu
- Standardowa Synchronizacja Ust z Lokalną Zamianą Tekstu na Mowę
- Standardowa Synchronizacja Ust z ElevenLabs i OpenAI TTS
Konfiguracja Ogólna:
💬 Wsparcie
- Serwer wsparcia na Discordzie
- Niestandardowy Rozwój: [email protected] (spersonalizowane rozwiązania dla zespołów i organizacji)