オーディオ処理ガイド

このガイドでは、リップシンクジェネレーターにオーディオデータを供給するための、さまざまなオーディオ入力方法の設定方法について説明します。先にセットアップガイドを完了していることを確認してください。

音声入力処理

音声入力を処理する方法を設定する必要があります。音声ソースに応じて、いくつかの方法があります。

このアプローチは、マイクに向かって話している間、リアルタイムでリップシンクを実行します。

標準モデル
リアリスティックモデル
ムード対応リアリスティックモデル

Runtime Audio Importerを使用してキャプチャ可能なサウンドウェーブを作成する
- Linux と Pixel Streaming を使用する場合は、代わりに Pixel Streaming Capturable Sound Wave を使用してください。
オーディオのキャプチャを開始する前に、OnPopulateAudioData デリゲートにバインドします
バインドされた関数内で、ランタイムビジームジェネレーターから ProcessAudioData を呼び出します
マイクからのオーディオキャプチャを開始します

コピー可能なノード。

Lip Sync During Audio Capture

リアリスティックモデルは、スタンダードモデルと同じオーディオ処理ワークフローを使用しますが、VisemeGeneratorの代わりにRealisticLipSyncGenerator変数を使用します。

コピー可能なノード。

Realistic Lip Sync During Audio Capture

ムード対応モデルは同じオーディオ処理ワークフローを使用しますが、MoodMetaHumanLipSyncGenerator変数と追加のムード設定機能を備えています。

コピー可能なノード。

Mood-Enabled Lip Sync During Audio Capture

このアプローチでは、マイクから音声をキャプチャし、リップシンクとともに再生します。

標準モデル
リアリスティックモデル
ムード対応リアリスティックモデル

Runtime Audio Importerを使用してキャプチャ可能なサウンドウェーブを作成する
- Linux と Pixel Streaming を使用する場合は、代わりに Pixel Streaming Capturable Sound Wave を使用してください。
マイクからオーディオキャプチャを開始する
キャプチャ可能なサウンドウェーブを再生する前に、その OnGeneratePCMData デリゲートにバインドする
バインドされた関数内で、ランタイムビジームジェネレーターの ProcessAudioData を呼び出す

コピー可能なノード。

Lip Sync During Audio Playback

コピー可能なノード。

Realistic Lip Sync During Audio Playback

ムード対応モデルは同じオーディオ処理ワークフローを使用しますが、MoodMetaHumanLipSyncGenerator変数と追加のムード設定機能を備えています。

コピー可能なノード。

Mood-Enabled Lip Sync During Audio Playback

通常
ストリーミング

このアプローチは、ローカルTTSを使用してテキストから音声を合成し、リップシンクを実行します。

標準モデル
リアリスティックモデル
ムード対応リアリスティックモデル

Runtime Text To Speechを使用してテキストから音声を生成する
Runtime Audio Importerを使用して合成されたオーディオをインポートする
インポートしたサウンドウェーブを再生する前に、そのOnGeneratePCMDataデリゲートにバインドする
バインドされた関数内で、Runtime Viseme GeneratorのProcessAudioDataを呼び出す

コピー可能なノード。

Lip Sync From Synthesized Speech

コピー可能なノード。

Mood-Enabled Lip Sync From Local TTS

ムード対応モデルは同じオーディオ処理ワークフローを使用しますが、MoodMetaHumanLipSyncGenerator変数と追加のムード設定機能を備えています。

コピー可能なノード。

Mood-Enabled Lip Sync From Local TTS

このアプローチでは、ストリーミング音声合成とリアルタイムのリップシンクを組み合わせています。

標準モデル
リアリスティックモデル
ムード対応リアリスティックモデル

Runtime Text To Speechを使用して、テキストからストリーミング音声を生成します
Runtime Audio Importerを使用して、合成されたオーディオをインポートします
ストリーミングサウンドウェーブを再生する前に、そのOnGeneratePCMDataデリゲートにバインドします
バインドされた関数内で、Runtime Viseme GeneratorからProcessAudioDataを呼び出します

コピー可能なノード。

Lip Sync From Synthesized Streaming Speech

コピー可能なノード。

Realistic Lip Sync From Streaming Local TTS

ムード対応モデルは同じオーディオ処理ワークフローを使用しますが、MoodMetaHumanLipSyncGenerator変数と追加のムード設定機能を備えています。

コピー可能なノード。

Mood-Enabled Lip Sync From Streaming Local TTS

通常
ストリーミング

このアプローチでは、Runtime AI Chatbot Integrator プラグインを使用して、AIサービス（OpenAI または ElevenLabs）から合成音声を生成し、リップシンクを実行します。

標準モデル
リアリスティックモデル
ムード対応リアリスティックモデル

Runtime AI Chatbot Integratorを使用して、外部API（OpenAI、ElevenLabsなど）を介してテキストから音声を生成します
Runtime Audio Importerを使用して、合成されたオーディオデータをインポートします
インポートしたサウンドウェーブを再生する前に、そのOnGeneratePCMDataデリゲートにバインドします
バインドされた関数内で、Runtime Viseme GeneratorのProcessAudioDataを呼び出します

コピー可能なノード。

Lip Sync From Externally Synthesized Speech

コピー可能なノード。

Realistic Lip Sync From Externally Synthesized Speech

ムード対応モデルは同じオーディオ処理ワークフローを使用しますが、MoodMetaHumanLipSyncGenerator変数と追加のムード設定機能を備えています。

コピー可能なノード。

Mood-Enabled Lip Sync From Externally Synthesized Speech

このアプローチでは、Runtime AI Chatbot Integrator プラグインを使用して、AIサービス（OpenAI または ElevenLabs）から合成ストリーミング音声を生成し、リップシンクを実行します。

標準モデル
リアリスティックモデル
ムード対応リアリスティックモデル

Runtime AI Chatbot Integratorを使用して、ストリーミングTTS API（ElevenLabs Streaming APIなど）に接続します
Runtime Audio Importerを使用して、合成されたオーディオデータをインポートします
ストリーミングサウンドウェーブを再生する前に、そのOnGeneratePCMDataデリゲートにバインドします
バインドされた関数内で、Runtime Viseme GeneratorのProcessAudioDataを呼び出します

コピー可能なノード。

Lip Sync From Externally Synthesized Streaming Speech

コピー可能なノード。

Realistic Lip Sync From Externally Synthesized Streaming Speech

ムード対応モデルは同じオーディオ処理ワークフローを使用しますが、MoodMetaHumanLipSyncGenerator変数と追加のムード設定機能を備えています。

コピー可能なノード。

Mood-Enabled Lip Sync From Externally Synthesized Streaming Speech

このアプローチでは、事前に録音されたオーディオファイルまたはオーディオバッファを使用してリップシンクを行います。

標準モデル
リアリスティックモデル
ムード対応リアリスティックモデル

Runtime Audio Importerを使用して、ディスクまたはメモリからオーディオファイルをインポートします
インポートしたサウンドウェーブを再生する前に、そのOnGeneratePCMDataデリゲートにバインドします
バインドされた関数内で、Runtime Viseme GeneratorのProcessAudioDataを呼び出します
インポートしたサウンドウェーブを再生し、リップシンクアニメーションを観察します

コピー可能なノード。

Lip Sync From Audio File

コピー可能なノード。

Realistic Lip Sync From Audio File

ムード対応モデルは同じオーディオ処理ワークフローを使用しますが、MoodMetaHumanLipSyncGenerator変数と追加のムード設定機能を備えています。

コピー可能なノード。

Mood-Enabled Lip Sync From Audio File

バッファからオーディオデータをストリーミングするには、以下が必要です：

標準モデル
リアリスティックモデル
ムード対応リアリスティックモデル

ストリーミングソースから取得可能な浮動小数点PCM形式のオーディオデータ（浮動小数点サンプルの配列）（またはRuntime Audio Importerを使用してより多くのフォーマットをサポート）
サンプルレートとチャンネル数
オーディオチャンクが利用可能になるたびに、これらのパラメータを指定してRuntime Viseme GeneratorのProcessAudioDataを呼び出す

コピー可能なノード。

Lip Sync From Streaming Source

コピー可能なノード。

Realistic Lip Sync From Streaming Source

ムード対応モデルは同じオーディオ処理ワークフローを使用しますが、MoodMetaHumanLipSyncGenerator変数と追加のムード設定機能を備えています。

コピー可能なノード。

Mood-Enabled Lip Sync From Streaming Source

注意: ストリーミングオーディオソースを使用する場合は、歪んだ再生を避けるために、オーディオ再生のタイミングを適切に管理してください。詳細については、ストリーミングサウンドウェーブのドキュメントを参照してください。

処理パフォーマンスのヒント

チャンクサイズ: ProcessingChunkSize 設定オプションを増やす（例：320、480、640サンプル）ことで、品質や応答性への影響を最小限に抑えつつ、レイテンシを顕著に改善できます。
モデルタイプ: リアリスティックモデルを使用する場合、高度に最適化されたモデルタイプ（デフォルトで選択）に切り替えるとパフォーマンスが向上します。元のモデルは、特にノイズの多いオーディオにおいて、わずかに品質が優れる場合があることに注意してください。
バッファ管理: ムード対応モデルは、オーディオを320サンプルのフレーム（16kHzで20ms）で処理します。最適なパフォーマンスを得るために、オーディオ入力のタイミングをこれに合わせてください。
ジェネレーターの再作成: Realisticモデルで確実に動作させるには、非アクティブ期間後に新しいオーディオデータを入力するたびにジェネレーターを再作成してください。説明については、トラブルシューティングのジェネレーターの再作成を参照してください。

次のステップ

オーディオ処理の設定が完了したら、以下のことを行いたい場合があります。

設定オプションについて学び、リップシンクの動作を微調整しましょう
表現力を高めるために笑いアニメーションを追加する
設定ガイドで説明されているレイヤリング手法を使用して、リップシンクを既存のフェイシャルアニメーションと組み合わせる

音声入力処理​

処理パフォーマンスのヒント​

次のステップ​

音声入力処理

処理パフォーマンスのヒント

次のステップ