概要

Runtime MetaHuman Lip Syncは、MetaHumanおよびカスタムキャラクターに対して、リアルタイム、オフライン、クロスプラットフォームでのリップシンクを可能にするプラグインです。以下のような様々なソースからのオーディオ入力に応じて、キャラクターの唇をアニメーションさせることができます:
- Runtime Audio Importer's によるマイク入力(キャプチャ可能なサウンドウェーブ)
- Runtime Text To Speech または Runtime AI Chatbot Integrator による合成音声
- Runtime Audio Importer を介した、複数のフォーマットのストリーミングまたはインポートされたオーディオデータ
- 浮動小数点 PCM 形式(浮動小数点サンプルの配列)の任意のオーディオデータ
このプラグインは、オーディオ入力に基づいて内部でバイザム(音素の視覚的表現)を生成します。テキストではなくオーディオデータを直接処理するため、このプラグインは多言語入力をサポートしており、英語、スペイン語、フランス語、ドイツ語、日本語、中国語、韓国語、ロシア語、イタリア語、ポルトガル語、アラビア語、ヒンディー語などに限りません。文字通りあらゆる言語がサポートされています。リップシンクは言語固有のテキスト処理ではなく、オーディオの音素から生成されるためです。
Standard Modelは14のビジームを生成し、事前定義されたポーズアセットを使用してリップシンクアニメーションを実行します。一方、Realistic Models(MetaHumanおよびARKitベースのキャラクター専用)は、事前定義されたポーズアセットに依存せずに81のフェイシャルコントロール変更を生成し、その結果、はるかにリアルなフェイシャルアニメーションを実現します。
キャラクター互換性
その名前に反して、Runtime MetaHuman Lip Sync は MetaHuman だけでなく、幅広いキャラクターで動作します。
人気の商用キャラクターシステム
- Daz Genesis 8/9 キャラクター
- Reallusion Character Creator 3/4 (CC3/CC4) キャラクター
- Mixamo キャラクター
- ReadyPlayerMe アバター
アニメーション標準サポート
- FACSベースのブレンドシェイプシステム
- Apple ARKitブレンドシェイプ標準
- Preston Blair音素セット
- 3ds Max音素システム
- 表情用のカスタムモーフターゲットを持つ任意のキャラクター
非MetaHumanキャラクター(標準モデルを使用)については、カスタムキャラクター設定ガイドを参照してください。ARKitベースのキャラクター(リアリスティックモデルを使用)については、モーフターゲットセットの選択を参照してください。
アニメーションプレビュー
以下の短いアニメーションで、プラグインが生成するリップシンクアニメーションの品質を、さまざまなキャラクタータイプやモデルで確認してください。
主な機能
- マイク入力からのリアルタイムリップシンク
- オフライン音声処理のサポート
- モデル固有のプラットフォームサポートによるクロスプラットフォーム互換性
- 複数のキャラクターシステムとアニメーション規格のサポート
- カスタムキャラクター向けの柔軟なビジームマッピング
- ユニバーサル言語サポート - 音声解析によりあらゆる話し言葉に対応
- 表現力を高めるムード対応フェイシャルアニメーション
- 設定可能な出力タイプ(顔全体または口のみのコントロール)
- まばたきや視線追跡のためのオプションの目アニメーションヘルパー
リップシンクモデル
このプラグインは、さまざまなプロジェクトのニーズに合わせて複数のリップシンクモデルを提供しています。
- 標準モデル
- リアリスティックモデル
- ムード対応リアリスティックモデル
標準的なリップシンクモデルは、効率的でクロスプラットフォームなパフォーマンスと幅広いキャラクター互換性を提供します。
- MetaHumansおよびすべてのカスタムキャラクタータイプで動作します
- リアルタイムパフォーマンス向けに最適化
- より低いリソース要件
- 対応プラットフォーム: Windows、Android、Androidベースのプラットフォーム(Meta Questを含む)
Standard Modelを使用するには、追加の拡張プラグインをインストールする必要があります。インストール手順については、前提条件セクションを参照してください。
現実的なリップシンクモデルは、MetaHumanキャラクター向けに特に強化された視覚的忠実度を提供します。
- MetaHumanおよびARKitベースのキャラクターと互換性があり、高度なフェイシャルアニメーション(81のフェイシャルコントロール)を備えています
- より自然な口の動きによる高い視覚品質
- やや高いパフォーマンス要件
- リアルタイムアプリケーション向けのストリーミングオーディオ処理
- 映画のような体験やクローズアップのキャラクターインタラクションに最適
- 3つの最適化レベル:オリジナル、準最適化、高度最適化
- 設定可能なモーフターゲットセット(モーフターゲットセットの選択を参照)
- 対応プラットフォーム:Windows、Mac、iOS、Linux、Android、Androidベースのプラットフォーム(Meta Questを含む)
リアリスティックモデルはメインプラグインに含まれており、使用するために追加の拡張機能は必要ありません。
ムード対応のリアルなモデルは、MetaHumanキャラクターに感情を認識するフェイシャルアニメーションを提供します。
- MetaHumanおよびARKitベースのキャラクターと互換性があり、表情に応じたフェイシャルアニメーション(81のフェイシャルコントロール)に対応
- 12種類の異なるムードタイプ(ニュートラル、ハッピー、サッド、コンフィデントなど)
- 設定可能なムード強度(0.0~1.0)
- 同期精度向上のための調整可能な先読みタイミング(20ms~200ms)
- 選択可能な出力タイプ:フルフェイスまたはマウスのみのコントロール
- リアルタイムアプリケーション向けのストリーミングオーディオ処理
- 設定可能なモーフターゲットセット(モーフターゲットセットの選択を参照)
- 対応プラットフォーム:Windows、Mac、iOS、Linux、Android、Androidベースのプラットフォーム(Meta Questを含む)
ムード対応リアリスティックモデルはメインプラグインに含まれており、使用するために追加の拡張機能は必要ありません。
プロジェクトの要件に応じて、パフォーマンス、キャラクターの互換性、視覚品質、ターゲットプラットフォーム、機能のニーズに基づいて適切なモデルを選択できます。
動作の仕組み
このプラグインは、以下の方法で音声入力を処理します。
- オーディオデータは、指定されたチャンネルとサンプルレートを持つfloat PCM形式で受信されます
- プラグインはオーディオを処理し、モデルに応じてフェイシャルコントロールデータまたはバイザムを生成します
- ムード対応モデルの場合、感情的なコンテキストがフェイシャルアニメーションに適用されます
- アニメーションデータは、キャラクターのフェイシャルムーブメントをリアルタイムで駆動します
パフォーマンスアーキテクチャ
Runtime MetaHuman Lip SyncはCPUのみの推論を使用して、リアルタイムアプリケーションに適した一貫性のある低レイテンシのリップシンク結果を提供します。デフォルトでは、プラグインは10ミリ秒ごとにリップシンク処理を実行します(調整可能 - 利用可能なすべての設定についてはプラグイン設定を参照してください。処理チャンクサイズ、スレッド数、その他のパフォーマンスパラメータを含みます)。
モデルアーキテクチャの概要
リップシンクモデルは、メルスペクトログラム分析を通じて音声を処理する、コンパクトなトランスフォーマーベースのニューラルネットワークを使用しています。この軽量アーキテクチャは、効率的なCPU推論と最小限のメモリフットプリントで、リアルタイムパフォーマンスを実現するために特別に設計されています。
なぜCPU推論なのか?
小規模で頻繁な推論処理(リアルタイムのリップシンクなど)では、CPU処理の方がGPUよりも優れたレイテンシ特性を発揮します。バッチサイズ1で10~100ミリ秒の推論間隔の場合、PCIe転送やカーネル起動によるGPUのオーバーヘッドが実際の計算時間を上回ることがよくあります。さらに、ゲームエンジンではGPUがすでにレンダリング、シェーダー、物理演算で飽和状態にあるため、リソース競合が発生し、予測不能なレイテンシのスパイクを引き起こします。
ハードウェア互換性
このプラグインは、専用のグラフィックハードウェアを必要とせず、ほとんどのミッドレンジ以上のCPUで効率的に動作し、デスクトップ、モバイル、VRプラットフォームでリアルタイムのパフォーマンスを提供します。性能が低いハードウェアの場合は、モデルタイプを準最適化または高度に最適化に調整するか、**処理チャンクサイズ**を増やすことで、応答性がやや低下するものの、リアルタイムパフォーマンスを維持できます。
クイックスタート
以下は、キャラクターにリップシンクを有効にするための基本的なセットアップです。
- MetaHumanキャラクターの場合は、セットアップガイドに従ってください
- カスタムキャラクターの場合は、カスタムキャラクターセットアップガイドに従ってください
- 希望のリップシンクモデルを選択して設定します
- Blueprintでオーディオ入力処理を設定します
- Animation Blueprintで適切なリップシンクノードを接続します
- オーディオを再生し、キャラクターが同期してアニメーションするのを確認します
オプションの目のアニメーション
また、このプラグインにはメタヒューマン向けの自動まばたきや視線追跡のためのオプションのヘルパーも含まれています。これらはリップシンクとは独立しており、単独で使用することも、リップシンクの上に重ねて使用することも可能です。目のアニメーションヘルパーを参照してください。
追加リソース
📦 ダウンロードとリンク
デモプロジェクト:
すぐに使えるデモプロジェクトが2つ用意されています。詳細、ダウンロード、チュートリアルについては、専用のデモプロジェクトページをご覧ください。
- 完全なAI会話型NPCワークフロー - 音声認識 + LLMチャットボット + TTS + リップシンク
- 基本リップシンクデモ - マイク入力、オーディオファイル、TTS
両方のデモはクロスプラットフォーム(Windows、Mac、Linux、iOS、Android、Meta Quest)に対応しており、パッケージ化されたビルドと完全なUE 5.6+ソースプロジェクトとして提供されます。
🎥 ビデオチュートリアル
注目のデモ:
リアルなモデル(高品質)チュートリアル:
- オーディオファイル/バッファからの高品質リップシンク
- ムードコントロールとローカルTTSを備えた高品質リップシンク
- ElevenLabs & OpenAI TTSを備えた高品質リップシンク
- 高品質ライブマイクリップシンク
- ARKitキャラクター向け高品質リップシンク
標準モデルチュートリアル:
一般的な設定:
💬 サポート
- カスタム開発: [email protected](チームや組織向けのカスタマイズされたソリューション)