メインコンテンツまでスキップ

オーディオ処理ガイド

このガイドでは、リップシンクジェネレーターにオーディオデータを供給するためのさまざまなオーディオ入力方法の設定方法について説明します。先にセットアップガイドを完了していることを確認してください。

オーディオ入力処理

オーディオ入力を処理する方法を設定する必要があります。オーディオソースに応じて、いくつかの方法があります。

このアプローチでは、マイクに向かって話しながらリアルタイムでリップシンクを実行します:

  1. Runtime Audio Importerを使用してCapturable Sound Waveを作成します
  2. オーディオキャプチャを開始する前に、OnPopulateAudioDataデリゲートにバインドします
  3. バインドされた関数内で、Runtime Viseme GeneratorのProcessAudioDataを呼び出します
  4. マイクからのオーディオキャプチャを開始します

コピー可能なノード

オーディオキャプチャ中のリップシンク

処理パフォーマンスのヒント

  • チャンクサイズProcessingChunkSize設定オプションを増やす(例:320、480、または640サンプル)と、品質や応答性への影響を最小限に抑えながら、レイテンシを大幅に改善できます。

  • モデルタイプ:Realisticモデルを使用する場合、Highly Optimized model type(デフォルトで選択)に切り替えると、パフォーマンスが向上します。元のモデルは、特にノイズの多いオーディオで、わずかに優れた品質を生成する可能性があることに注意してください。

  • バッファ管理:ムード対応モデルは、320サンプルフレーム(16kHzで20ms)でオーディオを処理します。最適なパフォーマンスを得るために、オーディオ入力のタイミングがこれと一致していることを確認してください。

  • ジェネレーターの再作成:Realisticモデルで信頼性の高い操作を行うには、非アクティブ期間の後に新しいオーディオデータを供給したいときに、ジェネレーターを再作成してください。

次のステップ

オーディオ処理を設定したら、次のことを行うことができます:

  • リップシンクの動作を微調整するための設定オプションについて学ぶ
  • 表現力を高めるために笑いアニメーションを追加する
  • 設定ガイドで説明されているレイヤリング技術を使用して、既存の顔面アニメーションとリップシンクを組み合わせる