跳到主要内容

概述

Runtime MetaHuman Lip Sync 文档

Runtime MetaHuman Lip Sync 是一款能够为MetaHuman和自定义角色实现实时、离线、跨平台口型同步的插件。它可以根据来自不同音频源的输入驱动角色嘴唇动画,支持的音频源包括:

该插件内部会根据音频输入生成视位素(音素的视觉表现),并使用预定义的表情资产进行口型同步动画。

角色兼容性

尽管名为Runtime MetaHuman Lip Sync,该插件实际上兼容远不止MetaHuman的多种角色类型:

主流商业角色系统

  • Daz Genesis 8/9角色
  • Reallusion Character Creator 3/4 (CC3/CC4)角色
  • Mixamo角色
  • ReadyPlayerMe虚拟形象

支持的动画标准

  • 基于FACS的混合变形系统
  • Apple ARKit混合变形标准
  • Preston Blair音素集
  • 3ds Max音素系统
  • 任何带有自定义面部表情变形目标的角色

关于如何将插件用于非MetaHuman角色的详细说明,请参阅自定义角色设置指南

动画预览

观看以下短视频,了解插件在不同角色类型和模型上生成的口型同步动画质量:

Realistic Lip Sync Example
使用MetaHuman角色实现的逼真模型
Standard Lip Sync Example
标准模型与MetaHuman角色
Custom Character Lip Sync Example
标准模型与自定义角色
Custom Character Lip Sync Example
标准模型搭配自定义角色

核心功能

  • 实时麦克风输入唇形同步
  • 支持离线音频处理
  • 跨平台兼容性:WindowsAndroidMeta Quest
  • 支持多种角色系统和动画标准
  • 可自定义的视位映射(viseme mapping)

唇形同步模型

插件提供两种唇形同步模型以适应不同项目需求:

标准唇形同步模型提供高效、跨平台的性能表现,具有广泛的角色兼容性:

  • 适用于MetaHumans及所有自定义角色类型
  • 针对全平台实时性能优化
  • 资源占用更低
  • 完全兼容本地TTS(Runtime Text To Speech插件)
  • 适合移动端和VR/AR应用

您可以根据项目对性能、角色兼容性和视觉质量的需求选择合适的模型。

TTS兼容性说明

虽然两种模型都支持多种音频输入方式,但拟真模型由于ONNX运行时冲突,对本地TTS的兼容性有限。如需在拟真模型中使用文本转语音功能,推荐使用外部TTS服务(OpenAI、ElevenLabs)。

工作原理

插件按以下流程处理音频输入:

  1. 音频数据以PCM格式(浮点型)接收,包含指定的声道数采样率
  2. 插件处理音频生成视位音素
  3. 这些视位通过角色的姿势资产驱动唇形同步动画
  4. 动画实时应用到角色上

快速开始

以下是启用角色唇形同步的基本设置步骤:

  1. 对于MetaHuman角色,请遵循MetaHuman设置指南
  2. 对于自定义角色,请遵循自定义角色设置指南
  3. 设置音频输入处理(如在事件图表中)
  4. 动画图表中连接Blend Runtime MetaHuman Lip Sync节点
  5. 播放音频,观察角色说话效果!

附加资源

📦 下载与链接

🎥 视频教程

拟真模型(高品质)教程:

标准模型教程:

通用设置:

💬 支持