跳至主要内容

音訊處理指南

本指南說明如何設定不同的音訊輸入方法,將音訊資料提供給您的嘴型同步生成器。在繼續之前,請確保您已完成設定指南

音訊輸入處理

您需要設定一種處理音訊輸入的方法。根據您的音訊來源,有幾種方式可以做到這一點。

此方法在對著麥克風說話時即時執行嘴型同步:

  1. 使用 Runtime Audio Importer 建立一個 Capturable Sound Wave
  2. 在開始捕捉音訊之前,綁定到 OnPopulateAudioData 委派
  3. 在綁定的函數中,從您的 Runtime Viseme Generator 呼叫 ProcessAudioData
  4. 開始從麥克風捕捉音訊

可複製節點

音訊捕捉期間的嘴型同步

處理效能提示

  • 區塊大小:增加 ProcessingChunkSize 配置選項(例如增加到 320、480 或 640 個樣本)可以顯著改善延遲,同時對品質或響應性的影響最小。

  • 模型類型:使用逼真模型時,切換到高度最佳化模型類型(預設選取)可以改善效能。請注意,原始模型可能產生略好的品質,特別是在處理有雜訊的音訊時。

  • 緩衝區管理:情緒啟用模型以 320 個樣本的幀(16kHz 下為 20ms)處理音訊。確保您的音訊輸入時序與此對齊以獲得最佳效能。

  • 生成器重建:為確保逼真模型的可靠運作,每次在非活動期後要饋送新的音訊資料時,請重建生成器。請參閱疑難排解中的生成器重建以了解說明。

後續步驟

一旦您設定好音訊處理,您可能想要:

  • 了解配置選項以微調您的嘴型同步行為
  • 新增笑聲動畫以增強表現力
  • 使用配置指南中描述的圖層技術,將嘴型同步與現有的面部動畫結合