跳到主要内容

音频处理指南

本指南介绍如何设置不同的音频输入方法,将音频数据馈送到您的口型同步生成器。请确保在继续之前已完成设置指南

音频输入处理

您需要设置一种处理音频输入的方法。根据您的音频源,有几种方法可以实现这一点。

此方法在对着麦克风说话时实时执行口型同步:

  1. 使用 Runtime Audio Importer 创建一个 Capturable Sound Wave
  2. 在开始捕获音频之前,绑定到 OnPopulateAudioData 委托
  3. 在绑定的函数中,从您的 Runtime Viseme Generator 调用 ProcessAudioData
  4. 开始从麦克风捕获音频

可复制的节点

音频捕获期间的口型同步

处理性能提示

  • 块大小:增加 ProcessingChunkSize 配置选项(例如,增加到 320、480 或 640 个样本)可以显著改善延迟,同时对质量或响应性的影响最小。

  • 模型类型:使用逼真模型时,切换到高度优化模型类型(默认选中)可以提高性能。请注意,原始模型可能产生稍好的质量,特别是在有噪声的音频中。

  • 缓冲区管理:支持情绪的模型以 320 样本帧(16kHz 下 20ms)处理音频。确保您的音频输入时序与此对齐以获得最佳性能。

  • 生成器重建:为了逼真模型的可靠运行,每次在非活动期后想要馈送新的音频数据时,请重新创建生成器。有关解释,请参阅故障排除中的生成器重建

后续步骤

一旦您设置了音频处理,您可能想要:

  • 了解配置选项以微调您的口型同步行为
  • 添加笑声动画以增强表现力
  • 使用配置指南中描述的分层技术,将口型同步与现有面部动画结合