概述
Runtime MetaHuman Lip Sync 是一款能够为MetaHuman和自定义角色实现实时、离线和跨平台口型同步的 插件。它可以根据来自不同音频源的输入驱动角色嘴唇动画,包括:
- 通过Runtime Audio Importer的可捕获声波获取麦克风输入
- 来自Runtime Text To Speech或Runtime AI Chatbot Integrator的合成语音
- 任何浮点PCM格式的音频数据(浮点样本数组)
该插件内部会根据音频输入生成视位(音素的视觉表现)。由于直接处理音频数据而非文本,插件支持包括但不限于英语、西班牙语、法语、德语、日语、中文、韩语、俄语、意大利语、葡萄牙语、阿拉伯语和印地语的多语言输入。理论上支持所有语言,因为口型同步是从音频音素生成,而非基于特定语言的文本处理。
标准模型产生14种视位并使用预定义姿势资产执行口型同步动画。而真实模型(仅限MetaHuman角色)会生成250种变形目标变化且不依赖预定义姿势资产,从而产生显著更真实的面部动画。
角色兼容性
尽管名称如此,Runtime MetaHuman Lip Sync实际上兼容远不止MetaHuman的多种角色:
主流商业角色系统
- Daz Genesis 8/9角色
- Reallusion Character Creator 3/4 (CC3/CC4)角色
- Mixamo角色
- ReadyPlayerMe虚拟形象
支持的动画标准
- 基于FACS的混合变形系统
- Apple ARKit混合变形标准
- Preston Blair音素集
- 3ds Max音素系统
- 任何带有自定义面部表情变形目标的角色
关于在非MetaHuman角色上使用插件的详细说明,请参阅自定义角色设置指南。
动画预览
观看以下短视频,了解插件在不同角色类型和模型上生成的口型同步动画质量:




核心功能
- 实时麦克风输入的唇形同步
- 支持离线音频处理
- 跨平台兼容性:Windows、Android、Meta Quest
- 支持多种角色系统和动画标准
- 灵活的自定义角色视位映射
- 通用语言支持 - 通过音频分析可适配任何口语
唇形同步模型
本插件提供两种唇形同步模型以适应不同项目需求:
- 标准模型
- 真实模型
标准唇形同步模型提供高效、跨平台的性能表现,具有广泛的角色兼容性:
- 适用于MetaHumans及所有自定义角色类型
- 针对全平台实时性能优化
- 资源占用更低
- 完全兼容本地TTS(Runtime Text To Speech插件)
- 适合移动端和VR/AR应用
使用标准(快速)模型需要安装额外扩展插件。具体安装说明请参阅前提条件章节。
真实唇形同步模型专为MetaHuman角色提供增强的视觉保真度:
- MetaHuman专属高级面部动画
- 更自然的嘴部动作,视觉质量更高
- 性能要求略高
- 本地TTS支持有限(推荐使用外部TTS服务)
- 适合电影级体验和特写角色互动
真实模型已包含在主插件中,无需额外扩展即可使用。
您可以根据项目对性能、角色兼容性和视觉质量的需求选择合适的模型。
虽然两种模型都支持多种音频输入方式,但由于ONNX运行时冲突,真实模型对本地TTS的兼容性有限。如需在真实模型中使用文本转语音功能,推荐使用外部TTS服务(OpenAI、ElevenLabs)。
工作原理
插件按以下流程处理音频输入:
- 音频数据以PCM格式的浮点数形式接收,包含指定的声道数和采样率
- 插件处理音频生成视位(音素)
- 这些视位通过角色的姿势资产驱动唇形同步动画
- 动画实时应用于角色
快速入门
以下是启用角色唇形同步的基本设置:
- 对于MetaHuman角色,请遵循MetaHuman设置指南
- 对于自定义角色,请遵循自定义角色设置指南
- 设置音频输入处理(例如在事件图表中)
- 在动画图表中连接Blend Runtime MetaHuman Lip Sync节点
- 播放音频即可看到角色说话!
附加资源
📦 下载与链接
- 在Fab平台获取
- 产品官网
- 下载演示版(Windows)
- 下载演示项目源文件(UE 5.6) – 需要本插件+Runtime Audio Importer,可选:Text To Speech/AI Chatbot。标准模型需要小型扩展插件(参见此处)