概述

Runtime MetaHuman Lip Sync 是一个插件,可为 MetaHuman 和自定义角色实现实时、离线和跨平台的唇形同步。它允许您根据来自各种来源的音频输入来驱动角色的嘴唇动画,包括:
- 通过 Runtime Audio Importer 的 可捕获声波 获取的麦克风输入
- 来自 Runtime Text To Speech 或 Runtime AI Chatbot Integrator 的合成语音
- 通过 Runtime Audio Importer 以多种格式流式传输或导入的音频数据
- 任何浮点 PCM 格式的音频数据(浮点样本数组)
该插件内部根据音频输入生成视位素(音素的视觉表示)。由于它直接处理音频数据而非文本,该插件支持多语言输入,包括但不限于英语、西班牙语、法语、德语、日语、中文、韩语、俄语、意大利语、葡萄牙语、阿拉伯语和印地语。实际上支持任何语言,因为唇形同步是从音频音素生成的,而非依赖于特定语言的文本处理。
标准模型 产生 14 个视位素,并使用预定义的姿势资产执行唇形同步动画。相比之下,真实感模型(专用于 MetaHuman 角色)生成 81 个面部控制变化,不依赖预定义的姿势资产,从而产生显著更真实的面部动画。
角色兼容性
尽管名为 Runtime MetaHuman Lip Sync,但它适用于远不止 MetaHuman 的广泛角色范围:
流行的商业角色系统
- Daz Genesis 8/9 角色
- Reallusion Character Creator 3/4 (CC3/CC4) 角色
- Mixamo 角色
- ReadyPlayerMe 虚拟形象
支持的动画标准
- 基于 FACS 的混合变形系统
- Apple ARKit 混合变形标准
- Preston Blair 音素集
- 3ds Max 音素系统
- 任何具有用于面部表情的自定义变形目标的角色
有关将插件与非 MetaHuman 角色一起使用的详细说明,请参阅自定义角色设置指南。
动画预览
查看这些简短的动画,了解插件在不同角色类型和模型上产生的唇形同步动画质量:




主要特性
- 基于麦克风输入的实时口型同步
- 支持离线音频处理
- 跨平台兼容性,提供特定于模型的平台支持
- 支持多种角色系统和动画标准
- 灵活的自定义角色视位映射
- 通用语言支持 - 通过音频分析适用于任何口语
- 情绪感知的面部动画,增强表现力
- 可配置的输出类型(全脸或仅嘴部控制)
口型同步模型
该插件提供多种口型同步模型,以适应不同的项目需求:
- 标准模型
- 真实感模型
- 情绪感知真实感模型
标准口型同步模型提供高效、跨平台的性能,并具有广泛的角色兼容性:
- 适用于 MetaHumans 和所有自定义角色类型
- 针对实时性能优化
- 资源需求较低
- 与本地 TTS(Runtime Text To Speech 插件)完全兼容
- 平台支持:Windows, Android, 基于 Android 的平台(包括 Meta Quest)
要使用标准模型,您需要安装一个额外的扩展插件。请参阅先决条件部分获取安装说明。
真实感口型同步模型为 MetaHuman 角色提供增强的视觉保真度:
- 兼容具有高级面部动画(81 个面部控制)的 MetaHuman 和基于 ARKit 的角色
- 更高的视觉质量,嘴部运动更自然
- 性能要求稍高
- 本地 TTS 支持有限(推荐使用外部 TTS 服务)
- 适用于电影级体验和特写角色互动
- 平台支持:Windows, Mac, iOS, Linux, Android, 基于 Android 的平台(包括 Meta Quest)
- 三个优化级别:原始、半优化和高度优化
- 可配置的变形目标集(参见变形目标集选择)
真实感模型包含在主插件中,使用时不需要任何额外的扩展。
情绪感知真实感模型为 MetaHuman 角色提供情绪感知的面部动画:
- 兼容具有情绪响应式面部动画的 MetaHuman 和基于 ARKit 的角色
- 12 种不同的情绪类型(中性、快乐、悲伤、自信等)
- 可配置的情绪强度(0.0 到 1.0)
- 可调整的预读时间以改善同步(20ms 到 200ms)
- 可选的输出类型:全脸或仅嘴部控制
- 流式音频处理,适用于实时应用
- 可配置的变形目标集(参见变形目标集选择)
- 平台支持:Windows, Mac, iOS, Linux, Android, 基于 Android 的平台(包括 Meta Quest)
情绪感知模型包含高级功能,如可配置的预读时间和选择性控制输出,非常适合需要控制情绪表达的应用。
您可以根据项目在性能、角色兼容性、视觉质量、目标平台和功能需求方面的要求,选择合适的模型。
虽然所有模型都支持各种音频输入方法,但常规的真实感模型由于 ONNX 运行时冲突,与本地 TTS 的兼容性有限。然而,情绪感知真实感模型与本地 TTS 完全兼容。对于文本转语音功能:
- 标准模型:兼容所有 TTS 选项(本地和外部)
- 真实感模型:推荐使用外部 TTS 服务(OpenAI, ElevenLabs)
- 情绪感知真实感模型:兼容所有 TTS 选项(本地和外部)
工作原理
该插件按以下方式处理音频输入:
- 音频数据以浮点 PCM 格式接收,并指定声道数和采样率
- 插件处理音频以生成面部控制数据或视位,具体取决于模型
- 对于情绪感知模型,情感上下文会应用于面部动画
- 动画数据实时驱动角色的面部运动
性能架构
Runtime MetaHuman Lip Sync 使用仅 CPU 推理来提供适用于实时应用的一致、低延迟口型同步结果。默认情况下,插件每10 毫秒执行一次口型同步处理(可调整 - 参见插件配置了解所有可用设置,包括处理块大小、线程数和其他性能参数)。
模型架构概述
口型同步模型使用紧凑的基于 Transformer 的神经网络,通过梅尔频谱图分析处理音频。这种轻量级架构专门为实时性能设计,具有高效的 CPU 推理和最小的内存占用。
为什么使用 CPU 推理?
对于像实时口型同步这样的小型、频繁的推理操作,CPU 处理比 GPU 具有更好的延迟特性。在批处理大小为 1、推理间隔为 10-100 毫秒的情况下,PCIe 传输和内核启动的 GPU 开销通常超过实际计算时间。此外,在游戏引擎中,GPU 已经饱和于渲染、着色器和物理计算,这会产生资源争用,导致不可预测的延迟峰值。
硬件兼容性
该插件在大多数中端及更高端的 CPU 上都能高效运行,无需专用图形硬件,可在桌面、移动和 VR 平台上提供实时性能。对于较弱的硬件,您可以将模型类型调整为半优化或高度优化,或者增加**处理块大小**,以保持实时性能,同时略微降低响应速度。
快速开始
以下是为您的角色启用口型同步的基本设置:
- 对于 MetaHuman 角色,请遵循设置指南
- 对于自定义角色,请遵循自定义角色设置指南
- 选择并配置您偏好的口型同步模型
- 在您的 Blueprint 中设置音频输入处理
- 在 Animation Blueprint 中连接相应的口型同步节点
- 播放音频,观看您的角色带着情感说话!
其他资源
📦 下载与链接
- 在 Fab 上获取
- 产品网站
- 下载演示(Windows)
- 下载演示源文件(UE 5.6) – 需要此插件 + Runtime Audio Importer,可选:Text To Speech / AI Chatbot。标准模型需要一个小型扩展插件(参见此处)
🎥 视频教程
特色演示:
真实感模型(高质量)教程:
标准模型教程:
通用设置:
💬 支持
- Discord 支持服务器
- 定制开发: [email protected](为团队和组织提供量身定制的解决方案)