概述
Runtime MetaHuman Lip Sync 是一款能够为MetaHuman和自定义角色实现实时、离线、跨平台口型同步的插件。 它可以根据来自不同音频源的输入驱动角色嘴唇动画,支持的音频源包括:
- 通过Runtime Audio Importer的可捕获声波获取的麦克风输入
- 来自Runtime Text To Speech或Runtime AI Chatbot Integrator的合成语音
- 任何浮点PCM格式的音频数据(浮点样本数组)
该插件内部会根据音频输入生成视位素(音素的视觉表现),并使用预定义的表情资产进行口型同步动画。
角色兼容性
尽管名为Runtime MetaHuman Lip Sync,该插件实际上兼容远不止MetaHuman的多种角色类型:
主流商业角色系统
- Daz Genesis 8/9角色
- Reallusion Character Creator 3/4 (CC3/CC4)角色
- Mixamo角色
- ReadyPlayerMe虚拟形象
支持的动画标准
- 基于FACS的混合变形系统
- Apple ARKit混合变形标准
- Preston Blair音素集
- 3ds Max音素系统
- 任何带有自定义面部表情变形目标的角色
关于如何将插件用于非MetaHuman角色的详细说明,请参阅自定义角色设置指南。
动画预览
观看以下短视频,了解插件在不同角色类型和模型上生成的口型同步动画质量:




核心功能
- 实时麦克风输入唇形同步
- 支持离线音频处理
- 跨平台兼容性:Windows、Android、Meta Quest
- 支持多种角色系统和动画标准
- 可自定义的视位映射(viseme mapping)
唇形同步模型
插件提供两种唇形同步模型以适应不同项目需求:
- 标准模型
- 拟真模型
标准唇形同步模型提供高效、跨平台的性能表现,具有广泛的角色兼容性:
- 适用于MetaHumans及所有自定义角色类型
- 针对全平台实时性能优化
- 资源占用更低
- 完全兼容本地TTS(Runtime Text To Speech插件)
- 适合移动端和VR/AR应用
拟真唇形同步模型专为MetaHuman角色提供增强的视觉保真度:
- MetaHuman专属高级面部动画
- 更自然的嘴部运动,视觉质量更高
- 性能要求略高
- 本地TTS支持有限(推荐使用外部TTS服务)
- 适合电影级体验和近距离角色交互
您可以根据项目对性能、角色兼容性和视觉质量的需求选择合适的模型。
TTS兼容性说明
虽然两种模型都支持多种音频输入方式,但拟真模型由于ONNX运行时冲突,对本地TTS的兼容性有限。如需在拟真模型中使用文本转语音功能,推荐使用外部TTS服务(OpenAI、ElevenLabs)。
工作原理
插件按以下流程处理音频输入:
- 音频数据以PCM格式(浮点型)接收,包含指定的声道数和采样率
- 插件处理音频生成视位(音素)
- 这些视位通过角色的姿势资产驱动唇形同步动画
- 动画实时应用到角色上
快速开始
以下是启用角色唇形同步的基本设置步骤:
- 对于MetaHuman角色,请遵循MetaHuman设置指南
- 对于自定义角色,请遵循自定义角色设置指南
- 设置音频输入处理(如在事件图表中)
- 在动画图表中连接Blend Runtime MetaHuman Lip Sync节点
- 播放音频,观察角色说话效果!