跳到主要内容

概述

Runtime MetaHuman Lip Sync 文档

Runtime MetaHuman Lip Sync 是一款能够为MetaHuman和自定义角色实现实时、离线和跨平台口型同步的插件。它允许您根据来自不同音频源的输入驱动角色嘴唇动画,包括:

该插件内部会根据音频输入生成视位(音素的视觉表现)。由于直接处理音频数据而非文本,插件支持包括但不限于英语、西班牙语、法语、德语、日语、中文、韩语、俄语、意大利语、葡萄牙语、阿拉伯语和印地语的多语言输入。理论上支持所有语言,因为口型同步是从音频音素生成,而非基于特定语言的文本处理。

标准模型 产生 14种视位,并使用预定义姿势资产执行口型同步动画。而 真实模型(仅限 MetaHuman 角色)会生成 250种变形目标变化,不依赖预定义姿势资产,从而产生更真实的面部动画。

角色兼容性

尽管名称如此,Runtime MetaHuman Lip Sync 实际上兼容远超MetaHuman的多种角色类型:

主流商业角色系统

  • Daz Genesis 8/9 角色
  • Reallusion Character Creator 3/4 (CC3/CC4) 角色
  • Mixamo 角色
  • ReadyPlayerMe 虚拟形象

支持的动画标准

  • 基于FACS的混合变形系统
  • Apple ARKit混合变形标准
  • Preston Blair音素集
  • 3ds Max音素系统
  • 任何带有自定义面部表情变形目标的角色

关于与非MetaHuman角色配合使用的详细指南,请参阅 自定义角色设置指南

动画预览

观看以下短片了解插件在不同角色类型和模型上生成的口型同步动画质量:

Realistic Lip Sync Example
使用MetaHuman角色实现的逼真模型
Standard Lip Sync Example
标准模型与MetaHuman角色
Custom Character Lip Sync Example
标准模型与自定义角色
Custom Character Lip Sync Example
标准模型搭配自定义角色

核心功能

  • 实时麦克风输入口型同步
  • 支持离线音频处理
  • 跨平台兼容性:WindowsAndroidMeta Quest
  • 支持多种角色系统和动画标准
  • 可自定义的视位映射配置
  • 通过音频分析实现通用语言支持 - 适用于任何口语

口型同步模型

插件提供两种口型同步模型以适应不同项目需求:

标准口型同步模型提供高效、跨平台的性能表现和广泛的角色兼容性:

  • 兼容MetaHumans及所有自定义角色类型
  • 针对全平台实时性能优化
  • 资源占用更低
  • 完全兼容本地TTS(Runtime Text To Speech插件)
  • 适合移动端和VR/AR应用

您可以根据项目对性能、角色兼容性和视觉质量的需求选择合适的模型。

TTS兼容性说明

虽然两种模型都支持多种音频输入方式,但拟真模型由于ONNX运行时冲突,对本地TTS的兼容性有限。如需在拟真模型中使用文本转语音功能,推荐使用外部TTS服务(OpenAI、ElevenLabs)。

工作原理

插件通过以下流程处理音频输入:

  1. 音频数据以PCM格式的浮点数形式接收,包含指定的声道数采样率
  2. 插件处理音频生成视位音素
  3. 这些视位通过角色的姿势资产驱动口型同步动画
  4. 动画实时应用于角色

快速开始

以下是启用角色口型同步的基本设置步骤:

  1. 对于MetaHuman角色,请遵循MetaHuman设置指南
  2. 对于自定义角色,请遵循自定义角色设置指南
  3. 设置音频输入处理(例如在事件图表中)
  4. 动画图表中连接Blend Runtime MetaHuman Lip Sync节点
  5. 播放音频即可看到角色说话!

附加资源

📦 下载与链接

🎥 视频教程

特色演示:

拟真模型(高质量)教程:

标准模型教程:

通用设置:

💬 支持服务