跳到主要内容

音频处理指南

本指南介绍了如何设置不同的音频输入方法,将音频数据提供给唇形同步生成器。请确保在继续之前已完成设置指南

音频输入处理

你需要设置一种处理音频输入的方法。根据你的音频源,有几种不同的实现方式。

该方法可在对着麦克风说话时实时执行口型同步:

  1. 使用 Runtime Audio Importer 创建一个 可捕获声波
  2. 在开始捕获音频之前,绑定到 OnPopulateAudioData 委托
  3. 在绑定的函数中,从你的运行时视位生成器调用 ProcessAudioData
  4. 开始从麦克风捕获音频

可复制的节点

Lip Sync During Audio Capture

处理性能优化建议

  • 块大小:增大 ProcessingChunkSize 配置选项(例如设置为 320、480 或 640 个采样点)可显著改善延迟,同时对质量或响应速度影响极小。

  • 模型类型:使用写实模型时,切换到高度优化模型类型(默认选中)可提升性能。请注意,原始模型在质量上可能略胜一筹,尤其是在处理嘈杂音频时。

  • 缓冲区管理:支持情绪控制的模型以320采样点帧(16kHz采样率下对应20毫秒)处理音频。请确保您的音频输入时序与此对齐,以获得最佳性能。

  • 生成器重建:为确保与真实感模型可靠运行,在长时间未使用后每次需要输入新音频数据时,请重建生成器。相关说明请参阅故障排除中的生成器重建

下一步行动

一旦完成音频处理的设置,您可能希望:

  • 了解配置选项,以微调您的口型同步行为
  • 添加笑声动画,增强表现力
  • 按照配置指南中描述的分层技术,将口型同步与现有面部动画相结合