Aller au contenu principal

Aperçu

Documentation Runtime MetaHuman Lip Sync

Runtime MetaHuman Lip Sync est un plugin qui permet la synchronisation labiale en temps réel, hors ligne et multiplateforme pour les personnages MetaHuman et personnalisés. Il vous permet d'animer les lèvres d'un personnage en réponse à une entrée audio provenant de diverses sources, notamment :

Le plugin génère en interne des visèmes (représentations visuelles des phonèmes) basés sur l'entrée audio. Puisqu'il fonctionne directement avec des données audio plutôt qu'avec du texte, le plugin prend en charge l'entrée multilingue, y compris mais sans s'y limiter, l'anglais, l'espagnol, le français, l'allemand, le japonais, le chinois, le coréen, le russe, l'italien, le portugais, l'arabe et l'hindi. Littéralement, toute langue est prise en charge car la synchronisation labiale est générée à partir des phonèmes audio plutôt que d'un traitement de texte spécifique à une langue.

Le Modèle Standard produit 14 visèmes et effectue l'animation de synchronisation labiale en utilisant un asset de pose prédéfini. En revanche, les Modèles Réalistes (exclusifs aux personnages MetaHuman) génèrent 81 changements de contrôle facial sans s'appuyer sur un asset de pose prédéfini, ce qui donne des animations faciales nettement plus réalistes.

Compatibilité des Personnages

Malgré son nom, Runtime MetaHuman Lip Sync fonctionne avec une large gamme de personnages au-delà des MetaHumans :

Systèmes de Personnages Commerciaux Populaires

  • Personnages Daz Genesis 8/9
  • Personnages Reallusion Character Creator 3/4 (CC3/CC4)
  • Personnages Mixamo
  • Avatars ReadyPlayerMe

Prise en charge des Normes d'Animation

  • Systèmes de blendshapes basés sur FACS
  • Norme de blendshapes Apple ARKit
  • Ensembles de phonèmes Preston Blair
  • Systèmes de phonèmes 3ds Max
  • Tout personnage avec des morph targets personnalisés pour les expressions faciales

Pour des instructions détaillées sur l'utilisation du plugin avec des personnages non-MetaHuman, consultez le Guide de Configuration des Personnages Personnalisés.

Aperçu de l'Animation

Regardez ces courtes animations pour voir la qualité de l'animation de synchronisation labiale produite par le plugin sur différents types de personnages et modèles :

Realistic Lip Sync Example
Modèle réaliste avec un personnage MetaHuman
Standard Lip Sync Example
Modèle standard avec un personnage MetaHuman
Custom Character Lip Sync Example
Modèle standard avec personnage personnalisé
Custom Character Lip Sync Example
Modèle standard avec personnage personnalisé

Fonctionnalités Clés

  • Synchronisation labiale en temps réel à partir de l'entrée microphone
  • Prise en charge du traitement audio hors ligne
  • Compatibilité multiplateforme avec support spécifique à la plateforme du modèle
  • Prise en charge de plusieurs systèmes de personnages et standards d'animation
  • Mappage de visèmes flexible pour les personnages personnalisés
  • Support universel des langues - fonctionne avec toute langue parlée via l'analyse audio
  • Animation faciale sensible à l'humeur pour une expressivité accrue
  • Types de sortie configurables (contrôles du visage entier ou de la bouche uniquement)

Modèles de Synchronisation Labiale

Le plugin propose plusieurs modèles de synchronisation labiale pour répondre aux différents besoins du projet :

Le modèle de synchronisation labiale standard offre des performances efficaces et multiplateformes avec une large compatibilité des personnages :

  • Fonctionne avec les MetaHumans et tous les types de personnages personnalisés
  • Optimisé pour les performances en temps réel
  • Exigences en ressources plus faibles
  • Compatibilité totale avec la TTS locale (plugin Runtime Text To Speech)
  • Support des Plateformes : Windows, Android, plateformes basées sur Android (y compris Meta Quest)
Extension Plugin Requise

Pour utiliser le Modèle Standard, vous devez installer un plugin d'extension supplémentaire. Voir la section Prérequis pour les instructions d'installation.

Vous pouvez choisir le modèle approprié en fonction des exigences de votre projet en matière de performances, de compatibilité des personnages, de qualité visuelle, de plateforme cible et de besoins fonctionnels.

Note sur la Compatibilité TTS

Bien que tous les modèles prennent en charge diverses méthodes d'entrée audio, le modèle Réaliste régulier a une compatibilité limitée avec la TTS locale en raison de conflits de runtime ONNX. Le modèle Réaliste avec Humeur, cependant, est entièrement compatible avec la TTS locale. Pour la fonctionnalité de synthèse vocale :

  • Modèle Standard : Compatible avec toutes les options TTS (locale et externe)
  • Modèle Réaliste : Services TTS externes recommandés (OpenAI, ElevenLabs)
  • Modèle Réaliste avec Humeur : Compatible avec toutes les options TTS (locale et externe)

Comment Cela Fonctionne

Le plugin traite l'entrée audio de la manière suivante :

  1. Les données audio sont reçues au format PCM en float avec des canaux et une fréquence d'échantillonnage spécifiés
  2. Le plugin traite l'audio pour générer des données de contrôle facial ou des visèmes selon le modèle
  3. Pour les modèles avec humeur, le contexte émotionnel est appliqué à l'animation faciale
  4. Les données d'animation animent les mouvements faciaux du personnage en temps réel

Architecture des Performances

Runtime MetaHuman Lip Sync utilise l'inférence uniquement sur CPU pour fournir des résultats de synchronisation labiale cohérents et à faible latence, adaptés aux applications en temps réel. Par défaut, le plugin effectue le traitement de la synchronisation labiale toutes les 10 millisecondes (ajustable - voir Configuration du Plugin pour tous les paramètres disponibles, y compris la Taille du Bloc de Traitement, le nombre de threads et d'autres paramètres de performance).

Aperçu de l'Architecture du Modèle

Les modèles de synchronisation labiale utilisent un réseau neuronal compact basé sur un transformateur qui traite l'audio via une analyse de mél-spectrogramme. Cette architecture légère est spécifiquement conçue pour des performances en temps réel avec une inférence CPU efficace et une empreinte mémoire minimale.

Pourquoi l'Inférence sur CPU ?

Pour les petites opérations d'inférence fréquentes comme la synchronisation labiale en temps réel, le traitement CPU offre de meilleures caractéristiques de latence que le GPU. Avec une taille de lot de 1 et des intervalles d'inférence de 10 à 100 ms, la surcharge GPU due aux transferts PCIe et aux lancements de noyaux dépasse souvent le temps de calcul réel. De plus, dans les moteurs de jeu, le GPU est déjà saturé par le rendu, les shaders et la physique, créant une contention de ressources qui introduit des pics de latence imprévisibles.

Compatibilité Matérielle

Le plugin fonctionne efficacement sur la plupart des CPU de milieu de gamme et supérieurs sans nécessiter de matériel graphique dédié, fournissant des performances en temps réel sur les plateformes de bureau, mobiles et VR. Pour du matériel plus faible, vous pouvez ajuster le Type de Modèle en Semi-Optimisé ou Hautement Optimisé, ou augmenter la Taille du Bloc de Traitement pour maintenir des performances en temps réel avec une réactivité légèrement réduite.

Démarrage Rapide

Voici une configuration de base pour activer la synchronisation labiale sur votre personnage :

  1. Pour les personnages MetaHuman, suivez le Guide de Configuration
  2. Pour les personnages personnalisés, suivez le Guide de Configuration pour Personnages Personnalisés
  3. Choisissez et configurez votre modèle de synchronisation labiale préféré
  4. Configurez le traitement de l'entrée audio dans votre Blueprint
  5. Connectez le nœud de synchronisation labiale approprié dans l'Animation Blueprint
  6. Jouez de l'audio et voyez votre personnage parler avec émotion !

Ressources Supplémentaires

📦 Téléchargements & Liens

🎥 Tutoriels Vidéo

Démo en Vedette :

Tutoriels du Modèle Réaliste (Haute Qualité) :

Tutoriels du Modèle Standard :

Configuration Générale :

💬 Support