Aller au contenu principal

Aperçu

Runtime MetaHuman Lip Sync Documentation

Runtime MetaHuman Lip Sync est un plugin qui permet un lip sync en temps réel, hors ligne et multiplateforme pour les personnages MetaHuman et personnalisés. Il vous permet d’animer les lèvres d’un personnage en réponse à une entrée audio provenant de diverses sources, notamment :

Le plugin génère en interne des visèmes (représentations visuelles des phonèmes) à partir de l'entrée audio. Comme il fonctionne directement avec les données audio plutôt qu'avec du texte, le plugin prend en charge les entrées multilingues, y compris mais sans s'y limiter, l'anglais, l'espagnol, le français, l'allemand, le japonais, le chinois, le coréen, le russe, l'italien, le portugais, l'arabe et l'hindi. Littéralement, toute langue est prise en charge car le lip sync est généré à partir des phonèmes audio plutôt que d'un traitement textuel spécifique à une langue.

Le Modèle Standard produit 14 visèmes et effectue une animation de synchronisation labiale à l'aide d'un actif de pose prédéfini. En revanche, les Modèles Réalistes (exclusifs aux personnages basés sur MetaHuman et ARKit) génèrent 81 changements de contrôle facial sans dépendre d'un actif de pose prédéfini, ce qui donne des animations faciales nettement plus réalistes.

Compatibilité des personnages

Malgré son nom, Runtime MetaHuman Lip Sync fonctionne avec une large gamme de personnages au-delà des simples MetaHumans :

  • Personnages Daz Genesis 8/9
  • Personnages Reallusion Character Creator 3/4 (CC3/CC4)
  • Personnages Mixamo
  • Avatars ReadyPlayerMe

Prise en charge des normes d'animation

  • Systèmes de blendshapes basés sur FACS
  • Standard de blendshapes Apple ARKit
  • Ensembles de phonèmes Preston Blair
  • Systèmes de phonèmes 3ds Max
  • Tout personnage avec des morph targets personnalisés pour les expressions faciales

Pour les personnages non-MetaHuman utilisant le Modèle Standard, consultez le Guide de configuration des personnages personnalisés. Pour les personnages basés sur ARKit utilisant les Modèles Réalistes, consultez la Sélection des cibles de morphing.

Aperçu de l’animation

Regardez ces courtes animations pour voir la qualité de la synchronisation labiale produite par le plugin sur différents types de personnages et modèles :

Modèle réaliste avec personnage MetaHuman
Modèle standard avec personnage MetaHuman
Modèle standard avec personnage personnalisé
Modèle standard avec personnage personnalisé

Fonctionnalités principales

Modèles de synchronisation labiale

Le plugin propose plusieurs modèles de synchronisation labiale pour répondre aux besoins de différents projets :

Le modèle de synchronisation labiale standard offre des performances efficaces et multiplateformes avec une large compatibilité des personnages :

  • Fonctionne avec les MetaHumans et tous les types de personnages personnalisés
  • Optimisé pour les performances en temps réel
  • Exigences de ressources réduites
  • Prise en charge des plateformes : Windows, Android, plateformes basées sur Android (y compris Meta Quest)
Plugin d'extension requis

Pour utiliser le Modèle Standard, vous devez installer un plugin d'extension supplémentaire. Consultez la section des prérequis pour les instructions d'installation.

Vous pouvez choisir le modèle approprié en fonction des exigences de votre projet en matière de performances, de compatibilité des personnages, de qualité visuelle, de plateforme cible et de besoins fonctionnels.

Comment ça marche

Le plugin traite l'entrée audio de la manière suivante :

  1. Les données audio sont reçues au format PCM en flottant avec des canaux et une fréquence d'échantillonnage spécifiés
  2. Le plugin traite l'audio pour générer des données de contrôle facial ou des visèmes selon le modèle
  3. Pour les modèles compatibles avec l'humeur, le contexte émotionnel est appliqué à l'animation faciale
  4. Les données d'animation pilotent les mouvements faciaux du personnage en temps réel

Architecture de performance

Runtime MetaHuman Lip Sync utilise une inférence uniquement CPU pour fournir des résultats de synchronisation labiale cohérents et à faible latence, adaptés aux applications en temps réel. Par défaut, le plugin effectue le traitement de synchronisation labiale toutes les 10 millisecondes (réglable - voir Configuration du plugin pour tous les paramètres disponibles, y compris la Taille des blocs de traitement, le nombre de threads et d'autres paramètres de performance).

Aperçu de l'architecture du modèle

Les modèles de synchronisation labiale utilisent un réseau neuronal compact basé sur un transformateur qui traite l'audio via une analyse par mél-spectrogramme. Cette architecture légère est spécialement conçue pour des performances en temps réel avec une inférence CPU efficace et une empreinte mémoire minimale.

Pourquoi l'inférence CPU ?

Pour les opérations d'inférence petites et fréquentes comme le lip sync en temps réel, le traitement par CPU offre de meilleures caractéristiques de latence que le GPU. Avec une taille de lot de 1 et des intervalles d'inférence de 10 à 100 ms, la surcharge du GPU due aux transferts PCIe et aux lancements de noyaux dépasse souvent le temps de calcul réel. De plus, dans les moteurs de jeu, le GPU est déjà saturé par le rendu, les shaders et la physique, créant une contention de ressources qui introduit des pics de latence imprévisibles.

Compatibilité matérielle

Le plugin fonctionne efficacement sur la plupart des processeurs de milieu de gamme et supérieurs sans nécessiter de matériel graphique dédié, offrant des performances en temps réel sur les plateformes de bureau, mobiles et VR. Pour les configurations matérielles plus faibles, vous pouvez ajuster le Type de modèle en Semi-optimisé ou Hautement optimisé, ou augmenter la Taille des blocs de traitement pour maintenir des performances en temps réel avec une réactivité légèrement réduite.

Démarrage rapide

Voici une configuration de base pour activer le synchronisme labial sur votre personnage :

  1. Pour les personnages MetaHuman, suivez le Guide de configuration
  2. Pour les personnages personnalisés, suivez le Guide de configuration des personnages personnalisés
  3. Choisissez et configurez votre modèle de synchronisation labiale préféré
  4. Configurez le traitement de l'entrée audio dans votre Blueprint
  5. Connectez le nœud de synchronisation labiale approprié dans l'Animation Blueprint
  6. Jouez l'audio et voyez votre personnage s'animer en synchronisation

Animation oculaire optionnelle

Le plugin inclut également des assistants optionnels pour le clignement automatique et le suivi du regard sur les MetaHumans. Ceux-ci sont indépendants du lip sync et peuvent être utilisés seuls ou superposés à celui-ci. Voir Assistants d'animation des yeux.

Ressources supplémentaires

📦 Téléchargements et Liens

Projets de démonstration :

Deux projets de démonstration prêts à l'emploi sont disponibles - consultez la page dédiée Projets de démonstration pour tous les détails, téléchargements et procédures pas à pas :

Les deux démos sont multiplateformes (Windows, Mac, Linux, iOS, Android, Meta Quest) et sont livrées sous forme de builds packagés et de projets source complets UE 5.6+.

🎥 Tutoriels Vidéo

Démos en vedette :

Tutoriels pour modèle réaliste (haute qualité) :

Tutoriels pour modèles standards :

Configuration générale :

💬 Assistance

  • Développement personnalisé : [email protected] (solutions sur mesure pour les équipes et les organisations)
Join our Discord
online · support