概述

运行时MetaHuman唇形同步是一款插件,可为MetaHuman及自定义角色提供实时、离线且跨平台的唇形同步功能。它支持根据多种来源的音频输入驱动角色唇部动画,包括:
- 通过 Runtime Audio Importer's 的麦克风输入 可捕获声波
- 来自 Runtime Text To Speech 或 Runtime AI Chatbot Integrator 的合成语音
- 通过 Runtime Audio Importer 以 多种格式 流式传输或导入的音频数据
- 任何浮点 PCM 格式的音频数据(浮点样本数组)
该插件内部根据音频输入生成视位(音素的视觉表现)。由于直接处理音频数据而非文本,该插件支持多语言输入,包括但不限于英语、西班牙语、法语、德语、日语、中文、韩语、俄语、意大利语、葡萄牙语、阿拉伯语和印地语。实际上支持任何语言,因为口型同步是基于音频音素生成的,而非特定语言的文本处理。
标准模型生成 14 个视位,并使用预定义的姿态资源执行口型同步动画。相比之下,真实模型(专属于 MetaHuman 和基于 ARKit 的角色)可生成 81 项面部控制变化,无需依赖预定义姿态资源,从而产生显著更逼真的面部动画。
角色兼容性
尽管名称如此,Runtime MetaHuman Lip Sync 不仅适用于 MetaHuman,还支持多种角色:
流行的商业角色系统
- Daz Genesis 8/9 角色
- Reallusion Character Creator 3/4(CC3/CC4)角色
- Mixamo 角色
- ReadyPlayerMe 虚拟形象
动画标准支持
- 基于FACS的混合变形系统
- Apple ARKit混合变形标准
- Preston Blair音素集
- 3ds Max音素系统
- 任何具有自定义面部表情变形目标的角色
对于使用标准模型的非MetaHuman角色,请参阅自定义角色设置指南。对于使用逼真模型的ARKit角色,请参阅形态目标集选择。
动画预览
观看这些简短动画,了解插件在不同角色类型和模型上生成的唇形同步动画质量:
主要功能
- 从麦克风输入实时生成口型同步
- 支持离线音频处理
- 跨平台兼容性,并提供针对特定模型平台的优化支持
- 支持多种角色系统和动画标准
- 灵活的口型映射,适用于自定义角色
- 通用语言支持——通过音频分析适用于任何口语
- 情绪感知面部动画,增强表现力
- 可配置的输出类型(全脸控制或仅嘴部控制)
- 可选的眼部动画辅助工具,用于眨眼和视线追踪
唇形同步模型
该插件提供多种口型同步模型,以满足不同项目的需求:
- 标准模型
- 写实模型
- 情绪驱动的逼真模型
标准口型同步模型提供高效的跨平台性能,并具有广泛的角色兼容性:
- 兼容MetaHuman及所有自定义角色类型
- 针对实时性能进行优化
- 更低的资源需求
- 平台支持:Windows、Android、基于Android的平台(包括Meta Quest)
要使用标准模型,您需要安装额外的扩展插件。请参阅前提条件部分了解安装说明。
逼真的口型同步模型专为MetaHuman角色提供增强的视觉保真度:
- 兼容MetaHuman和基于ARKit的角色,具备高级面部动画(81个面部控制点)
- 更高的视觉质量,更自然的嘴部动作
- 性能要求略高
- 支持流式音频处理,适用于实时应用
- 适合电影级体验和近距离角色互动
- 三种优化级别:原始、半优化和高度优化
- 可配置的形态目标集(参见形态目标集选择)
- 平台支持:Windows、Mac、iOS、Linux、Android、基于Android的平台(包括Meta Quest)
真实模型包含在主插件中,无需任何额外扩展即可使用。
情绪感知真实模型为MetaHuman角色提供情感感知的面部动画:
- 兼容MetaHuman和基于ARKit的角色,支持情绪反应的面部动画(81个面部控制点)
- 12种不同情绪类型(中性、快乐、悲伤、自信等)
- 可配置的情绪强度(0.0至1.0)
- 可调节的预读时间以改善同步效果(20毫秒至200毫秒)
- 可选择的输出类型:全脸控制或仅嘴部控制
- 流式音频处理,适用于实时应用
- 可配置的形态目标集(参见形态目标集选择)
- 平台支持:Windows、Mac、iOS、Linux、Android、基于Android的平台(包括Meta Quest)
支持情绪控制的逼真模型已包含在主插件中,无需任何额外扩展即可使用。
您可以根据项目需求,在性能、角色兼容性、视觉质量、目标平台和功能需求方面选择合适的模型。
工作原理
该插件按以下方式处理音频输入:
- 音频数据以浮点 PCM格式 接收,并带有指定的 声道数 和 采样率
- 该插件处理音频以生成 面部控制数据 或 视位,具体取决于所使用的模型
- 对于支持情绪控制的模型,情感上下文会被应用于面部动画
- 动画数据实时驱动角色的面部运动
性能架构
Runtime MetaHuman Lip Sync 仅使用 CPU 推理,以提供适合实时应用的一致、低延迟唇形同步结果。默认情况下,该插件每 10 毫秒 执行一次唇形同步处理(可调整——参见插件配置了解所有可用设置,包括处理块大小、线程数及其他性能参数)。
模型架构概述
唇形同步模型采用基于紧凑型Transformer的神经网络,通过梅尔频谱图分析处理音频。这种轻量级架构专为实时性能设计,具备高效的CPU推理能力和极小的内存占用。
为何选择CPU推理?
对于实时口型同步这类频繁的小规模推理操作,CPU处理相比GPU具有更优的延迟特性。在批处理大小为1、推理间隔为10-100毫秒的场景下,GPU因PCIe传输和内核启动产生的开销往往超过实际计算时间。此外,游戏引擎中的GPU已被渲染、着色器和物理计算完全占用,资源争用会导致不可预测的延迟峰值。
硬件兼容性
该插件在大多数中高端CPU上高效运行,无需专用图形硬件,即可在桌面端、移动端和VR平台上实现实时性能。对于性能较弱的硬件,您可以将模型类型调整为半优化或高度优化,或增大**处理块大小**,以在略微降低响应速度的前提下保持实时性能。
快速入门
以下是为角色启用口型同步的基本设置:
- 对于 MetaHuman 角色,请遵循设置指南
- 对于自定义角色,请遵循自定义角色设置指南
- 选择并配置您偏好的口型同步模型
- 在您的蓝图(Blueprint)中设置音频输入处理
- 在动画蓝图(Animation Blueprint)中连接相应的口型同步节点
- 播放音频,即可看到您的角色同步动画
可选眼部动画
该插件还包含用于MetaHuman的自动眨眼和视线追踪的可选辅助功能。这些功能与口型同步相互独立,既可单独使用,也可叠加在口型同步之上。请参阅眼部动画辅助工具。
其他资源
📦 下载与链接
演示项目:
提供两个可直接使用的演示项目——详情、下载及操作指南请参阅专门的演示项目页面:
- 完整AI对话NPC工作流 - 语音识别 + 大语言模型聊天机器人 + 文本转语音 + 口型同步
- 基础口型同步演示 - 麦克风输入、音频文件、文本转语音
两个演示均支持跨平台(Windows、Mac、Linux、iOS、Android、Meta Quest),并以打包构建版本和完整的UE 5.6+源码项目形式提供。
🎥 视频教程
精选演示:
写实模型(高质量)教程:
- 从音频文件/缓冲区生成高质量口型同步
- 带情绪控制与本地TTS的高质量口型同步
- 使用ElevenLabs与OpenAI TTS的高质量口型同步
- 高质量实时麦克风口型同步
- 适用于ARKit角色的高质量口型同步
标准模型教程:
通用设置:
💬 支持
- 定制开发: [email protected](为团队和组织量身定制的解决方案)