跳到主要内容

概述

Runtime MetaHuman Lip Sync 文档

Runtime MetaHuman Lip Sync 是一个插件,可为 MetaHuman 和自定义角色实现实时、离线和跨平台的唇形同步。它允许您根据来自各种来源的音频输入来驱动角色的嘴唇动画,包括:

该插件内部会根据音频输入生成视位素(音素的视觉表示)。由于它直接处理音频数据而非文本,该插件支持多语言输入,包括但不限于英语、西班牙语、法语、德语、日语、中文、韩语、俄语、意大利语、葡萄牙语、阿拉伯语和印地语。实际上支持任何语言,因为唇形同步是从音频音素生成的,而非依赖于特定语言的文本处理。

标准模型 产生 14 个视位素,并使用预定义的姿势资产执行唇形同步动画。相比之下,真实感模型(专用于 MetaHuman 角色)生成 81 个面部控制变化,不依赖预定义的姿势资产,从而产生显著更真实的面部动画。

角色兼容性

尽管名为 Runtime MetaHuman Lip Sync,但它适用于远超 MetaHuman 的广泛角色范围:

流行的商业角色系统

  • Daz Genesis 8/9 角色
  • Reallusion Character Creator 3/4 (CC3/CC4) 角色
  • Mixamo 角色
  • ReadyPlayerMe 虚拟形象

支持的动画标准

  • 基于 FACS 的混合变形系统
  • Apple ARKit 混合变形标准
  • Preston Blair 音素集
  • 3ds Max 音素系统
  • 任何具有用于面部表情的自定义变形目标的角色

有关将插件与非 MetaHuman 角色一起使用的详细说明,请参阅 自定义角色设置指南

动画预览

查看这些简短的动画,了解插件在不同角色类型和模型上产生的唇形同步动画质量:

Realistic Lip Sync Example
使用MetaHuman角色的逼真模型
Standard Lip Sync Example
标准模型与MetaHuman角色
Custom Character Lip Sync Example
标准模型与自定义角色
Custom Character Lip Sync Example
标准模型搭配自定义角色

主要特性

  • 基于麦克风输入的实时唇形同步
  • 支持离线音频处理
  • 跨平台兼容性,提供特定于模型的平台支持
  • 支持多种角色系统和动画标准
  • 灵活的自定义角色口型映射
  • 通用语言支持 - 通过音频分析适用于任何口语
  • 情绪感知的面部动画,增强表现力
  • 可配置的输出类型(全脸或仅嘴部控制)

唇形同步模型

该插件提供多种唇形同步模型,以满足不同的项目需求:

标准唇形同步模型提供高效、跨平台的性能,并具有广泛的角色兼容性:

  • 适用于 MetaHumans 和所有自定义角色类型
  • 针对实时性能优化
  • 资源需求较低
  • 与本地 TTS(Runtime Text To Speech 插件)完全兼容
  • 平台支持:Windows, Android, 基于 Android 的平台(包括 Meta Quest)
需要扩展插件

要使用标准模型,您需要安装一个额外的扩展插件。请参阅 先决条件部分 获取安装说明。

您可以根据项目在性能、角色兼容性、视觉质量、目标平台和功能需求方面的要求,选择合适的模型。

TTS 兼容性说明

虽然所有模型都支持多种音频输入方法,但常规的 Realistic 模型由于 ONNX 运行时冲突,与本地 TTS 的兼容性有限。然而,情绪驱动的 Realistic 模型与本地 TTS 完全兼容。关于文本转语音功能:

  • 标准模型:兼容所有 TTS 选项(本地和外部)
  • Realistic 模型:推荐使用外部 TTS 服务(OpenAI, ElevenLabs)
  • 情绪驱动的 Realistic 模型:兼容所有 TTS 选项(本地和外部)

工作原理

该插件按以下方式处理音频输入:

  1. 音频数据以浮点 PCM 格式接收,并带有指定的声道数采样率
  2. 插件处理音频以生成面部控制数据视位(取决于所选模型)
  3. 对于情绪驱动模型,情感上下文会应用于面部动画
  4. 动画数据实时驱动角色的面部运动

性能架构

Runtime MetaHuman Lip Sync 使用纯 CPU 推理,以提供适用于实时应用的一致、低延迟唇形同步结果。默认情况下,插件每 10 毫秒执行一次唇形同步处理(可调整 - 请参阅 插件配置 了解所有可用设置,包括 处理块大小线程数 和其他性能参数)。

模型架构概述

唇形同步模型使用紧凑的基于 Transformer 的神经网络,通过梅尔频谱图分析处理音频。这种轻量级架构专为实时性能而设计,具有高效的 CPU 推理和最小的内存占用。

为什么使用 CPU 推理?

对于像实时唇形同步这样的小型、频繁的推理操作,CPU 处理比 GPU 具有更好的延迟特性。在批处理大小为 1、推理间隔为 10-100 毫秒的情况下,GPU 的 PCIe 传输和内核启动开销通常会超过实际计算时间。此外,在游戏引擎中,GPU 已经饱和于渲染、着色器和物理计算,这会产生资源争用,从而引入不可预测的延迟峰值。

硬件兼容性

该插件在大多数中端及更高性能的CPU上都能高效运行,无需专用图形硬件,可在桌面、移动和VR平台上提供实时性能。对于性能较弱的硬件,您可以调整模型类型半优化高度优化,或者增加**处理块大小**,以保持实时性能,但响应速度会略有降低。

快速入门

以下是为您的角色启用唇形同步的基本设置步骤:

  1. 对于MetaHuman角色,请遵循设置指南
  2. 对于自定义角色,请遵循自定义角色设置指南
  3. 选择并配置您偏好的唇形同步模型
  4. 在您的Blueprint中设置音频输入处理
  5. 在动画Blueprint中连接相应的唇形同步节点
  6. 播放音频,观看您的角色充满情感地说话!

其他资源

📦 下载与链接

🎥 视频教程

特色演示:

真实感模型(高质量)教程:

标准模型教程:

通用设置:

💬 支持