Przejdź do głównej zawartości

Przegląd

Runtime MetaHuman Lip Sync Documentation

Runtime MetaHuman Lip Sync to wtyczka umożliwiająca animację ust w czasie rzeczywistym, offline i międzyplatformowo zarówno dla postaci MetaHuman, jak i niestandardowych. Pozwala ona animować usta postaci w odpowiedzi na dźwięk wejściowy z różnych źródeł, w tym:

Wtyczka wewnętrznie generuje wizemy (wizualne reprezentacje fonemów) na podstawie wejścia audio. Ponieważ działa bezpośrednio na danych audio, a nie na tekście, wtyczka obsługuje wielojęzyczne wejście, w tym między innymi angielski, hiszpański, francuski, niemiecki, japoński, chiński, koreański, rosyjski, włoski, portugalski, arabski i hindi. Dosłownie każdy język jest obsługiwany, ponieważ animacja ust jest generowana z fonemów dźwiękowych, a nie z przetwarzania tekstu specyficznego dla języka.

Model Standardowy produkuje 14 wizemów i wykonuje animację ust przy użyciu predefiniowanego zasobu poz. Natomiast Modele Realistyczne (dostępne wyłącznie dla postaci MetaHuman) generują 81 zmian kontroli twarzy bez polegania na predefiniowanym zasobie poz, co skutkuje znacznie bardziej realistycznymi animacjami twarzy.

Kompatybilność z Postaciami

Pomimo swojej nazwy, Runtime MetaHuman Lip Sync działa z szerokim zakresem postaci, nie tylko z MetaHuman:

Popularne Komercyjne Systemy Postaci

  • Postacie Daz Genesis 8/9
  • Postacie Reallusion Character Creator 3/4 (CC3/CC4)
  • Postacie Mixamo
  • Awatary ReadyPlayerMe

Obsługa Standardów Animacji

  • Systemy blendshape oparte na FACS
  • Standard blendshape Apple ARKit
  • Zestawy fonemów Preston Blair
  • Systemy fonemów 3ds Max
  • Dowolna postać z niestandardowymi celami morfowania (morph targets) dla wyrazów twarzy

Aby uzyskać szczegółowe instrukcje dotyczące używania wtyczki z postaciami innymi niż MetaHuman, zobacz Przewodnik konfiguracji postaci niestandardowych.

Podgląd Animacji

Sprawdź te krótkie animacje, aby zobaczyć jakość animacji ust produkowanej przez wtyczkę w różnych typach postaci i modelach:

Realistic Lip Sync Example
Realistyczny model z postacią MetaHuman
Standard Lip Sync Example
Standardowy model z postacią MetaHuman
Custom Character Lip Sync Example
Model standardowy z niestandardową postacią
Custom Character Lip Sync Example
Standard model with custom character

Kluczowe Funkcje

  • Synchronizacja ust w czasie rzeczywistym z wejścia mikrofonowego
  • Obsługa przetwarzania audio offline
  • Kompatybilność międzyplatformowa z obsługą specyficzną dla modelu
  • Obsługa wielu systemów postaci i standardów animacji
  • Elastyczne mapowanie wizemów dla niestandardowych postaci
  • Uniwersalna obsługa języków - działa z dowolnym językiem mówionym poprzez analizę audio
  • Animacja twarzy uwzględniająca nastrój dla lepszej ekspresji
  • Konfigurowalne typy wyjścia (pełna twarz lub tylko sterowanie ustami)

Modele Synchronizacji Ust

Wtyczka oferuje wiele modeli synchronizacji ust, aby dopasować się do różnych potrzeb projektu:

Standardowy model synchronizacji ust zapewnia wydajną, międzyplatformową pracę z szeroką kompatybilnością postaci:

  • Działa z MetaHumanami i wszystkimi typami niestandardowych postaci
  • Zoptymalizowany pod kątem wydajności w czasie rzeczywistym
  • Niższe wymagania zasobowe
  • Pełna kompatybilność z lokalnym TTS (wtyczka Runtime Text To Speech)
  • Obsługa Platform: Windows, Android, platformy oparte na Androidzie (w tym Meta Quest)
Wymagana Wtyczka Rozszerzająca

Aby używać Modelu Standardowego, musisz zainstalować dodatkową wtyczkę rozszerzającą. Zobacz sekcję Wymagania wstępne w celu uzyskania instrukcji instalacji.

Możesz wybrać odpowiedni model w oparciu o wymagania swojego projektu dotyczące wydajności, kompatybilności z postaciami, jakości wizualnej, platformy docelowej i potrzeb funkcjonalnych.

Uwaga Dotycząca Kompatybilności TTS

Podczas gdy wszystkie modele obsługują różne metody wprowadzania dźwięku, standardowy model Realistyczny ma ograniczoną kompatybilność z lokalnym TTS z powodu konfliktów środowiska wykonawczego ONNX. Model Realistyczny z Włączonym Nastrojem jest jednak w pełni kompatybilny z lokalnym TTS. Dla funkcjonalności zamiany tekstu na mowę:

  • Model Standardowy: Kompatybilny ze wszystkimi opcjami TTS (lokalnymi i zewnętrznymi)
  • Model Realistyczny: Zalecane zewnętrzne usługi TTS (OpenAI, ElevenLabs)
  • Model Realistyczny z Włączonym Nastrojem: Kompatybilny ze wszystkimi opcjami TTS (lokalnymi i zewnętrznymi)

Jak to Działa

Wtyczka przetwarza wejście audio w następujący sposób:

  1. Dane audio są odbierane w formacie PCM typu float z określonymi kanałami i częstotliwością próbkowania
  2. Wtyczka przetwarza dźwięk, aby wygenerować dane sterowania mimiką lub wizemy w zależności od modelu
  3. Dla modeli z włączonym nastrojem, kontekst emocjonalny jest stosowany do animacji twarzy
  4. Dane animacji napędzają ruchy twarzy postaci w czasie rzeczywistym

Architektura Wydajności

Runtime MetaHuman Lip Sync wykorzystuje wnioskowanie wyłącznie na CPU, aby dostarczać spójne, niskopóźnieniowe wyniki synchronizacji ust odpowiednie dla aplikacji czasu rzeczywistego. Domyślnie wtyczka wykonuje przetwarzanie synchronizacji ust co 10 milisekund (możliwe do dostosowania - zobacz Konfiguracja Wtyczki dla wszystkich dostępnych ustawień, w tym Rozmiar Porcji Przetwarzania, liczba wątków i inne parametry wydajności).

Przegląd Architektury Modelu

Modele synchronizacji ust wykorzystują kompaktową, opartą na transformatorach sieć neuronową, która przetwarza dźwięk poprzez analizę mel-spektrogramu. Ta lekka architektura jest specjalnie zaprojektowana dla wydajności czasu rzeczywistego z efektywnym wnioskowaniem na CPU i minimalnym śladem pamięci.

Dlaczego Wnioskowanie na CPU?

Dla małych, częstych operacji wnioskowania, takich jak synchronizacja ust w czasie rzeczywistym, przetwarzanie na CPU oferuje lepsze charakterystyki opóźnienia niż GPU. Przy rozmiarze wsadu 1 i interwałach wnioskowania 10-100 ms, narzut GPU związany z transferami PCIe i uruchamianiem jąder często przekracza rzeczywisty czas obliczeń. Dodatkowo, w silnikach gier GPU jest już nasycone renderowaniem, shaderami i fizyką, co tworzy rywalizację o zasoby wprowadzającą nieprzewidywalne skoki opóźnienia.

Kompatybilność Sprzętowa

Wtyczka działa wydajnie na większości procesorów średniej i wyższej klasy bez wymagania dedykowanego sprzętu graficznego, zapewniając wydajność w czasie rzeczywistym na platformach desktopowych, mobilnych i VR. Dla słabszego sprzętu możesz dostosować Typ Modelu do Półoptymalizowanego lub Wysokooptymalizowanego, lub zwiększyć Rozmiar Porcji Przetwarzania, aby utrzymać wydajność w czasie rzeczywistym przy nieco zmniejszonej responsywności.

Szybki Start

Oto podstawowa konfiguracja do włączenia synchronizacji ust na twojej postaci:

  1. Dla postaci MetaHuman, postępuj zgodnie z Przewodnikiem Konfiguracji
  2. Dla postaci niestandardowych, postępuj zgodnie z Przewodnikiem Konfiguracji Postaci Niestandardowej
  3. Wybierz i skonfiguruj preferowany model synchronizacji ust
  4. Skonfiguruj przetwarzanie wejścia audio w swoim Blueprint
  5. Podłącz odpowiedni węzeł synchronizacji ust w Animation Blueprint
  6. Odtwórz audio i zobacz, jak twoja postać mówi z emocjami!

Dodatkowe Zasoby

📦 Pobieranie i Linki

🎥 Samouczki Wideo

Prezentowane Demo:

Samouczki Modelu Realistycznego (Wysokiej Jakości):

Samouczki Modelu Standardowego:

Konfiguracja Ogólna:

💬 Wsparcie