Aller au contenu principal

Vue d'ensemble

Runtime MetaHuman Lip Sync Documentation

Runtime MetaHuman Lip Sync est un plugin qui permet la synchronisation labiale en temps réel, hors ligne et multiplateforme pour les MetaHumans et les personnages personnalisés. Il vous permet d'animer les lèvres d'un personnage en réponse à une entrée audio provenant de diverses sources, notamment :

Le plugin génère en interne des visèmes (représentations visuelles des phonèmes) à partir de l'entrée audio. Comme il fonctionne directement avec les données audio plutôt qu'avec du texte, le plugin prend en charge l'entrée multilingue, y compris, mais sans s'y limiter, l'anglais, l'espagnol, le français, l'allemand, le japonais, le chinois, le coréen, le russe, l'italien, le portugais, l'arabe et l'hindi. Littéralement, toutes les langues sont prises en charge car la synchronisation labiale est générée à partir des phonèmes audio et non d'un traitement de texte spécifique à une langue.

Le Modèle Standard produit 14 visèmes et effectue l'animation de synchronisation labiale en utilisant un actif de pose prédéfini. En revanche, les Modèles Réalistes (exclusifs aux personnages MetaHuman) génèrent 81 changements de contrôle facial sans s'appuyer sur un actif de pose prédéfini, ce qui donne des animations faciales nettement plus réalistes.

Compatibilité des personnages

Malgré son nom, Runtime MetaHuman Lip Sync fonctionne avec une large gamme de personnages au-delà des MetaHumans :

Systèmes de personnages commerciaux populaires

  • Personnages Daz Genesis 8/9
  • Personnages Reallusion Character Creator 3/4 (CC3/CC4)
  • Personnages Mixamo
  • Avatars ReadyPlayerMe

Prise en charge des normes d'animation

  • Systèmes de blendshapes basés sur FACS
  • Norme de blendshape Apple ARKit
  • Ensembles de phonèmes Preston Blair
  • Systèmes de phonèmes 3ds Max
  • Tout personnage avec des morph targets personnalisés pour les expressions faciales

Pour des instructions détaillées sur l'utilisation du plugin avec des personnages non MetaHuman, consultez le Guide de configuration des personnages personnalisés.

Aperçu de l'animation

Regardez ces courtes animations pour voir la qualité de la synchronisation labiale produite par le plugin sur différents types de personnages et modèles :

Modèle réaliste avec un personnage MetaHuman
Modèle standard avec un personnage MetaHuman
Modèle standard avec personnage personnalisé
Modèle standard avec personnage personnalisé

Fonctionnalités principales

  • Synchronisation labiale en temps réel à partir de l'entrée microphone
  • Prise en charge du traitement audio hors ligne
  • Compatibilité multiplateforme avec support spécifique aux modèles
  • Prise en charge de multiples systèmes de personnages et standards d'animation
  • Mappage flexible des visèmes pour les personnages personnalisés
  • Support universel des langues - fonctionne avec n'importe quelle langue parlée via l'analyse audio
  • Animation faciale sensible à l'humeur pour une expressivité accrue
  • Types de sortie configurables (contrôles du visage entier ou de la bouche uniquement)

Modèles de synchronisation labiale

Le plugin propose plusieurs modèles de synchronisation labiale pour répondre aux différents besoins des projets :

Le modèle de synchronisation labiale standard offre des performances efficaces et multiplateformes avec une large compatibilité des personnages :

  • Fonctionne avec les MetaHumans et tous les types de personnages personnalisés
  • Optimisé pour les performances en temps réel
  • Exigences en ressources plus faibles
  • Support des plateformes : Windows, Android, plateformes basées sur Android (y compris Meta Quest)
Extension Plugin Requise

Pour utiliser le Standard Model, vous devez installer un plugin d'extension supplémentaire. Voir la section Prérequis pour les instructions d'installation.

Vous pouvez choisir le modèle approprié en fonction des exigences de votre projet en matière de performances, de compatibilité des personnages, de qualité visuelle, de plateforme cible et de besoins fonctionnels.

Comment cela fonctionne

Le plugin traite l'entrée audio de la manière suivante :

  1. Les données audio sont reçues au format PCM en virgule flottante avec un nombre spécifié de canaux et une fréquence d'échantillonnage
  2. Le plugin traite l'audio pour générer des données de contrôle facial ou des visèmes selon le modèle
  3. Pour les modèles avec humeur, le contexte émotionnel est appliqué à l'animation faciale
  4. Les données d'animation animent les mouvements faciaux du personnage en temps réel

Architecture des performances

Runtime MetaHuman Lip Sync utilise une inférence uniquement sur CPU pour fournir des résultats de synchronisation labiale cohérents et à faible latence, adaptés aux applications en temps réel. Par défaut, le plugin effectue le traitement de la synchronisation labiale toutes les 10 millisecondes (ajustable - voir Configuration du plugin pour tous les paramètres disponibles, y compris la Taille du bloc de traitement, le nombre de threads et d'autres paramètres de performance).

Aperçu de l'architecture du modèle

Les modèles de synchronisation labiale utilisent un réseau neuronal compact basé sur des transformateurs qui traite l'audio via une analyse de mél-spectrogramme. Cette architecture légère est spécifiquement conçue pour des performances en temps réel avec une inférence CPU efficace et une empreinte mémoire minimale.

Pourquoi une inférence sur CPU ?

Pour les petites opérations d'inférence fréquentes comme la synchronisation labiale en temps réel, le traitement CPU offre de meilleures caractéristiques de latence que le GPU. Avec une taille de lot de 1 et des intervalles d'inférence de 10 à 100 ms, la surcharge GPU due aux transferts PCIe et aux lancements de noyaux dépasse souvent le temps de calcul réel. De plus, dans les moteurs de jeu, le GPU est déjà saturé par le rendu, les shaders et la physique, créant une contention de ressources qui introduit des pics de latence imprévisibles.

Compatibilité matérielle

Le plugin fonctionne efficacement sur la plupart des CPU de milieu de gamme et supérieurs sans nécessiter de matériel graphique dédié, fournissant des performances en temps réel sur les plateformes de bureau, mobiles et VR. Pour les matériels plus faibles, vous pouvez ajuster le Type de modèle en Semi-Optimisé ou Hautement Optimisé, ou augmenter la Taille du bloc de traitement pour maintenir les performances en temps réel avec une réactivité légèrement réduite.

Démarrage rapide

Voici une configuration de base pour activer la synchronisation labiale sur votre personnage :

  1. Pour les personnages MetaHuman, suivez le Guide de configuration
  2. Pour les personnages personnalisés, suivez le Guide de configuration des personnages personnalisés
  3. Choisissez et configurez votre modèle de synchronisation labiale préféré
  4. Configurez le traitement de l'entrée audio dans votre Blueprint
  5. Connectez le nœud de synchronisation labiale approprié dans l'Animation Blueprint
  6. Jouez l'audio et voyez votre personnage parler avec émotion !

Ressources supplémentaires

📦 Téléchargements & Liens

Projets de démonstration :

🎥 Tutoriels vidéo

Démonstrations en vedette :

Tutoriels du Realistic Model (Haute Qualité) :

Tutoriels du Standard Model :

Configuration générale :

💬 Support

  • Développement personnalisé : [email protected] (solutions sur mesure pour les équipes et organisations)
Join our Discord
online · support