Aperçu

Runtime MetaHuman Lip Sync est un plugin qui permet un lip sync en temps réel, hors ligne et multiplateforme pour les personnages MetaHuman et personnalisés. Il vous permet d’animer les lèvres d’un personnage en réponse à une entrée audio provenant de diverses sources, notamment :
- Entrée microphone via Runtime Audio Importer's onde sonore capturable
- Parole synthétisée depuis Runtime Text To Speech ou Runtime AI Chatbot Integrator
- Données audio en flux ou importées dans plusieurs formats via Runtime Audio Importer
- Toute donnée audio au format PCM flottant (un tableau d'échantillons en virgule flottante)
Le plugin génère en interne des visèmes (représentations visuelles des phonèmes) à partir de l'entrée audio. Comme il fonctionne directement avec les données audio plutôt qu'avec du texte, le plugin prend en charge les entrées multilingues, y compris mais sans s'y limiter, l'anglais, l'espagnol, le français, l'allemand, le japonais, le chinois, le coréen, le russe, l'italien, le portugais, l'arabe et l'hindi. Littéralement, toute langue est prise en charge car le lip sync est généré à partir des phonèmes audio plutôt que d'un traitement textuel spécifique à une langue.
Le Modèle Standard produit 14 visèmes et effectue une animation de synchronisation labiale à l'aide d'un actif de pose prédéfini. En revanche, les Modèles Réalistes (exclusifs aux personnages basés sur MetaHuman et ARKit) génèrent 81 changements de contrôle facial sans dépendre d'un actif de pose prédéfini, ce qui donne des animations faciales nettement plus réalistes.
Compatibilité des personnages
Malgré son nom, Runtime MetaHuman Lip Sync fonctionne avec une large gamme de personnages au-delà des simples MetaHumans :
Systèmes de personnages commerciaux populaires
- Personnages Daz Genesis 8/9
- Personnages Reallusion Character Creator 3/4 (CC3/CC4)
- Personnages Mixamo
- Avatars ReadyPlayerMe
Prise en charge des normes d'animation
- Systèmes de blendshapes basés sur FACS
- Standard de blendshapes Apple ARKit
- Ensembles de phonèmes Preston Blair
- Systèmes de phonèmes 3ds Max
- Tout personnage avec des morph targets personnalisés pour les expressions faciales
Pour les personnages non-MetaHuman utilisant le Modèle Standard, consultez le Guide de configuration des personnages personnalisés. Pour les personnages basés sur ARKit utilisant les Modèles Réalistes, consultez la Sélection des cibles de morphing.
Aperçu de l’animation
Regardez ces courtes animations pour voir la qualité de la synchronisation labiale produite par le plugin sur différents types de personnages et modèles :
Fonctionnalités principales
- Synchronisation labiale en temps réel à partir de l'entrée microphone
- Prise en charge du traitement audio hors ligne
- Compatibilité multiplateforme avec prise en charge spécifique au modèle
- Prise en charge de plusieurs systèmes de personnages et standards d'animation
- Mappage de visèmes flexible pour les personnages personnalisés
- Prise en charge linguistique universelle – fonctionne avec n'importe quelle langue parlée grâce à l'analyse audio
- Animation faciale sensible à l'humeur pour une expressivité renforcée
- Types de sortie configurables (contrôles du visage complet ou de la bouche uniquement)
- Aides optionnelles pour l'animation des yeux pour les clignements et le suivi du regard
Modèles de synchronisation labiale
Le plugin propose plusieurs modèles de synchronisation labiale pour répondre aux besoins de différents projets :
- Modèle Standard
- Modèle réaliste
- Modèle réaliste avec gestion des émotions
Le modèle de synchronisation labiale standard offre des performances efficaces et multiplateformes avec une large compatibilité des personnages :
- Fonctionne avec les MetaHumans et tous les types de personnages personnalisés
- Optimisé pour les performances en temps réel
- Exigences de ressources réduites
- Prise en charge des plateformes : Windows, Android, plateformes basées sur Android (y compris Meta Quest)
Pour utiliser le Modèle Standard, vous devez installer un plugin d'extension supplémentaire. Consultez la section des prérequis pour les instructions d'installation.
Le modèle de synchronisation labiale réaliste offre une fidélité visuelle améliorée, spécifiquement pour les personnages MetaHuman :
- Compatible avec les personnages MetaHuman et basés sur ARKit avec animation faciale avancée (81 contrôles faciaux)
- Qualité visuelle supérieure avec des mouvements de bouche plus naturels
- Exigences de performance légèrement plus élevées
- Traitement audio en streaming pour les applications en temps réel
- Idéal pour les expériences cinématographiques et les interactions rapprochées avec les personnages
- Trois niveaux d'optimisation : Original, Semi-Optimisé et Hautement Optimisé
- Ensembles de cibles de morphing configurables (voir Sélection d'ensembles de cibles de morphing)
- Prise en charge des plateformes : Windows, Mac, iOS, Linux, Android, plateformes basées sur Android (y compris Meta Quest)
Le Modèle Réaliste est inclus dans le plugin principal et ne nécessite aucune extension supplémentaire pour être utilisé.
Le modèle réaliste compatible avec les émotions fournit une animation faciale sensible aux émotions pour les personnages MetaHuman :
- Compatible avec les personnages MetaHuman et basés sur ARKit avec animation faciale réactive à l'humeur (81 contrôles faciaux)
- 12 types d'humeur différents (Neutre, Heureux, Triste, Confiant, etc.)
- Intensité d'humeur configurable (0,0 à 1,0)
- Temporisation d'anticipation réglable pour une synchronisation améliorée (20 ms à 200 ms)
- Types de sortie sélectionnables : contrôles Visage Complet ou Bouche Uniquement
- Traitement audio en streaming pour les applications en temps réel
- Ensembles de cibles de morphing configurables (voir Sélection d'ensemble de cibles de morphing)
- Prise en charge des plateformes : Windows, Mac, iOS, Linux, Android, plateformes basées sur Android (y compris Meta Quest)
Le Modèle réaliste avec humeurs est inclus dans le plugin principal et ne nécessite aucune extension supplémentaire pour être utilisé.
Vous pouvez choisir le modèle approprié en fonction des exigences de votre projet en matière de performances, de compatibilité des personnages, de qualité visuelle, de plateforme cible et de besoins fonctionnels.
Comment ça marche
Le plugin traite l'entrée audio de la manière suivante :
- Les données audio sont reçues au format PCM en flottant avec des canaux et une fréquence d'échantillonnage spécifiés
- Le plugin traite l'audio pour générer des données de contrôle facial ou des visèmes selon le modèle
- Pour les modèles compatibles avec l'humeur, le contexte émotionnel est appliqué à l'animation faciale
- Les données d'animation pilotent les mouvements faciaux du personnage en temps réel
Architecture de performance
Runtime MetaHuman Lip Sync utilise une inférence uniquement CPU pour fournir des résultats de synchronisation labiale cohérents et à faible latence, adaptés aux applications en temps réel. Par défaut, le plugin effectue le traitement de synchronisation labiale toutes les 10 millisecondes (réglable - voir Configuration du plugin pour tous les paramètres disponibles, y compris la Taille des blocs de traitement, le nombre de threads et d'autres paramètres de performance).
Aperçu de l'architecture du modèle
Les modèles de synchronisation labiale utilisent un réseau neuronal compact basé sur un transformateur qui traite l'audio via une analyse par mél-spectrogramme. Cette architecture légère est spécialement conçue pour des performances en temps réel avec une inférence CPU efficace et une empreinte mémoire minimale.
Pourquoi l'inférence CPU ?
Pour les opérations d'inférence petites et fréquentes comme le lip sync en temps réel, le traitement par CPU offre de meilleures caractéristiques de latence que le GPU. Avec une taille de lot de 1 et des intervalles d'inférence de 10 à 100 ms, la surcharge du GPU due aux transferts PCIe et aux lancements de noyaux dépasse souvent le temps de calcul réel. De plus, dans les moteurs de jeu, le GPU est déjà saturé par le rendu, les shaders et la physique, créant une contention de ressources qui introduit des pics de latence imprévisibles.
Compatibilité matérielle
Le plugin fonctionne efficacement sur la plupart des processeurs de milieu de gamme et supérieurs sans nécessiter de matériel graphique dédié, offrant des performances en temps réel sur les plateformes de bureau, mobiles et VR. Pour les configurations matérielles plus faibles, vous pouvez ajuster le Type de modèle en Semi-optimisé ou Hautement optimisé, ou augmenter la Taille des blocs de traitement pour maintenir des performances en temps réel avec une réactivité légèrement réduite.
Démarrage rapide
Voici une configuration de base pour activer le synchronisme labial sur votre personnage :
- Pour les personnages MetaHuman, suivez le Guide de configuration
- Pour les personnages personnalisés, suivez le Guide de configuration des personnages personnalisés
- Choisissez et configurez votre modèle de synchronisation labiale préféré
- Configurez le traitement de l'entrée audio dans votre Blueprint
- Connectez le nœud de synchronisation labiale approprié dans l'Animation Blueprint
- Jouez l'audio et voyez votre personnage s'animer en synchronisation
Animation oculaire optionnelle
Le plugin inclut également des assistants optionnels pour le clignement automatique et le suivi du regard sur les MetaHumans. Ceux-ci sont indépendants du lip sync et peuvent être utilisés seuls ou superposés à celui-ci. Voir Assistants d'animation des yeux.
Ressources supplémentaires
📦 Téléchargements et Liens
Projets de démonstration :
Deux projets de démonstration prêts à l'emploi sont disponibles - consultez la page dédiée Projets de démonstration pour tous les détails, téléchargements et procédures pas à pas :
- Flux de travail complet pour PNJ conversationnel IA - reconnaissance vocale + chatbot LLM + TTS + synchronisation labiale
- Démonstration de base de synchronisation labiale - entrée microphone, fichiers audio, TTS
Les deux démos sont multiplateformes (Windows, Mac, Linux, iOS, Android, Meta Quest) et sont livrées sous forme de builds packagés et de projets source complets UE 5.6+.
🎥 Tutoriels Vidéo
Démos en vedette :
Tutoriels pour modèle réaliste (haute qualité) :
- Synchronisation labiale de haute qualité à partir d'un fichier/ buffer audio
- Synchronisation labiale de haute qualité avec contrôle de l'humeur et TTS local
- Synchronisation labiale de haute qualité avec ElevenLabs et OpenAI TTS
- Synchronisation labiale de haute qualité en direct depuis un microphone
- Synchronisation labiale de haute qualité pour les personnages ARKit
Tutoriels pour modèles standards :
- Synchronisation labiale standard avec micro en direct
- Synchronisation labiale standard avec synthèse vocale locale
- Synchronisation labiale standard avec ElevenLabs et OpenAI TTS
Configuration générale :
- Ajout d'un personnage MetaHuman personnalisé au projet de démonstration
- Vidéo tutoriel de configuration
- Clignement des yeux et suivi de caméra MetaHuman
- Présentation du projet de démonstration (ancienne version)
💬 Assistance
- Développement personnalisé : [email protected] (solutions sur mesure pour les équipes et les organisations)