跳到主要内容

概述

Runtime MetaHuman Lip Sync 文档

Runtime MetaHuman Lip Sync 是一款能够为MetaHuman和自定义角色实现实时、离线和跨平台口型同步的插件。它可以根据来自不同音频源的输入驱动角色嘴唇动画,包括:

该插件内部会根据音频输入生成视位(音素的视觉表现)。由于直接处理音频数据而非文本,插件支持包括但不限于英语、西班牙语、法语、德语、日语、中文、韩语、俄语、意大利语、葡萄牙语、阿拉伯语和印地语的多语言输入。理论上支持所有语言,因为口型同步是从音频音素生成,而非基于特定语言的文本处理。

标准模型产生14种视位并使用预定义姿势资产执行口型同步动画。而真实模型(仅限MetaHuman角色)会生成250种变形目标变化且不依赖预定义姿势资产,从而产生显著更真实的面部动画。

角色兼容性

尽管名称如此,Runtime MetaHuman Lip Sync实际上兼容远不止MetaHuman的多种角色:

主流商业角色系统

  • Daz Genesis 8/9角色
  • Reallusion Character Creator 3/4 (CC3/CC4)角色
  • Mixamo角色
  • ReadyPlayerMe虚拟形象

支持的动画标准

  • 基于FACS的混合变形系统
  • Apple ARKit混合变形标准
  • Preston Blair音素集
  • 3ds Max音素系统
  • 任何带有自定义面部表情变形目标的角色

关于在非MetaHuman角色上使用插件的详细说明,请参阅自定义角色设置指南

动画预览

观看以下短视频,了解插件在不同角色类型和模型上生成的口型同步动画质量:

Realistic Lip Sync Example
使用MetaHuman角色实现的逼真模型
Standard Lip Sync Example
标准模型与MetaHuman角色
Custom Character Lip Sync Example
标准模型与自定义角色
Custom Character Lip Sync Example
标准模型搭配自定义角色

核心功能

  • 实时麦克风输入的唇形同步
  • 支持离线音频处理
  • 跨平台兼容性:WindowsAndroidMeta Quest
  • 支持多种角色系统和动画标准
  • 灵活的自定义角色视位映射
  • 通用语言支持 - 通过音频分析可适配任何口语

唇形同步模型

本插件提供两种唇形同步模型以适应不同项目需求:

标准唇形同步模型提供高效、跨平台的性能表现,具有广泛的角色兼容性:

  • 适用于MetaHumans及所有自定义角色类型
  • 针对全平台实时性能优化
  • 资源占用更低
  • 完全兼容本地TTS(Runtime Text To Speech插件)
  • 适合移动端和VR/AR应用
需要扩展插件

使用标准(快速)模型需要安装额外扩展插件。具体安装说明请参阅前提条件章节

您可以根据项目对性能、角色兼容性和视觉质量的需求选择合适的模型。

TTS兼容性说明

虽然两种模型都支持多种音频输入方式,但由于ONNX运行时冲突,真实模型对本地TTS的兼容性有限。如需在真实模型中使用文本转语音功能,推荐使用外部TTS服务(OpenAI、ElevenLabs)。

工作原理

插件按以下流程处理音频输入:

  1. 音频数据以PCM格式的浮点数形式接收,包含指定的声道数采样率
  2. 插件处理音频生成视位音素
  3. 这些视位通过角色的姿势资产驱动唇形同步动画
  4. 动画实时应用于角色

快速入门

以下是启用角色唇形同步的基本设置:

  1. 对于MetaHuman角色,请遵循MetaHuman设置指南
  2. 对于自定义角色,请遵循自定义角色设置指南
  3. 设置音频输入处理(例如在事件图表中)
  4. 在动画图表中连接Blend Runtime MetaHuman Lip Sync节点
  5. 播放音频即可看到角色说话!

附加资源

📦 下载与链接

🎥 视频教程

特色演示:

真实模型(高质量)教程:

标准模型教程:

通用设置:

💬 支持