メインコンテンツまでスキップ

概要

Runtime MetaHuman Lip Sync Documentation

Runtime MetaHuman Lip Syncは、MetaHumanおよびカスタムキャラクターに対して、リアルタイム、オフライン、クロスプラットフォームでのリップシンクを可能にするプラグインです。以下のような様々なソースからのオーディオ入力に応じて、キャラクターの唇をアニメーションさせることができます:

このプラグインは、オーディオ入力に基づいて内部でバイザム(音素の視覚的表現)を生成します。テキストではなくオーディオデータを直接処理するため、このプラグインは多言語入力をサポートしており、英語、スペイン語、フランス語、ドイツ語、日本語、中国語、韓国語、ロシア語、イタリア語、ポルトガル語、アラビア語、ヒンディー語などに限りません。文字通りあらゆる言語がサポートされています。リップシンクは言語固有のテキスト処理ではなく、オーディオの音素から生成されるためです。

Standard Model14のビジームを生成し、事前定義されたポーズアセットを使用してリップシンクアニメーションを実行します。一方、Realistic ModelsMetaHumanおよびARKitベースのキャラクター専用)は、事前定義されたポーズアセットに依存せずに81のフェイシャルコントロール変更を生成し、その結果、はるかにリアルなフェイシャルアニメーションを実現します。

キャラクター互換性

その名前に反して、Runtime MetaHuman Lip Sync は MetaHuman だけでなく、幅広いキャラクターで動作します。

  • Daz Genesis 8/9 キャラクター
  • Reallusion Character Creator 3/4 (CC3/CC4) キャラクター
  • Mixamo キャラクター
  • ReadyPlayerMe アバター

アニメーション標準サポート

  • FACSベースのブレンドシェイプシステム
  • Apple ARKitブレンドシェイプ標準
  • Preston Blair音素セット
  • 3ds Max音素システム
  • 表情用のカスタムモーフターゲットを持つ任意のキャラクター

非MetaHumanキャラクター(標準モデルを使用)については、カスタムキャラクター設定ガイドを参照してください。ARKitベースのキャラクターリアリスティックモデルを使用)については、モーフターゲットセットの選択を参照してください。

アニメーションプレビュー

以下の短いアニメーションで、プラグインが生成するリップシンクアニメーションの品質を、さまざまなキャラクタータイプやモデルで確認してください。

MetaHumanキャラクターを使用したリアルなモデル
MetaHumanキャラクターを使用した標準モデル
カスタムキャラクターを使用した標準モデル
カスタムキャラクターを使用した標準モデル

主な機能

リップシンクモデル

このプラグインは、さまざまなプロジェクトのニーズに合わせて複数のリップシンクモデルを提供しています。

標準的なリップシンクモデルは、効率的でクロスプラットフォームなパフォーマンスと幅広いキャラクター互換性を提供します。

  • MetaHumansおよびすべてのカスタムキャラクタータイプで動作します
  • リアルタイムパフォーマンス向けに最適化
  • より低いリソース要件
  • 対応プラットフォーム: Windows、Android、Androidベースのプラットフォーム(Meta Questを含む)
拡張プラグインが必要です

Standard Modelを使用するには、追加の拡張プラグインをインストールする必要があります。インストール手順については、前提条件セクションを参照してください。

プロジェクトの要件に応じて、パフォーマンス、キャラクターの互換性、視覚品質、ターゲットプラットフォーム、機能のニーズに基づいて適切なモデルを選択できます。

動作の仕組み

このプラグインは、以下の方法で音声入力を処理します。

  1. オーディオデータは、指定されたチャンネルサンプルレートを持つfloat PCM形式で受信されます
  2. プラグインはオーディオを処理し、モデルに応じてフェイシャルコントロールデータまたはバイザムを生成します
  3. ムード対応モデルの場合、感情的なコンテキストがフェイシャルアニメーションに適用されます
  4. アニメーションデータは、キャラクターのフェイシャルムーブメントをリアルタイムで駆動します

パフォーマンスアーキテクチャ

Runtime MetaHuman Lip SyncはCPUのみの推論を使用して、リアルタイムアプリケーションに適した一貫性のある低レイテンシのリップシンク結果を提供します。デフォルトでは、プラグインは10ミリ秒ごとにリップシンク処理を実行します(調整可能 - 利用可能なすべての設定についてはプラグイン設定を参照してください。処理チャンクサイズスレッド数、その他のパフォーマンスパラメータを含みます)。

モデルアーキテクチャの概要

リップシンクモデルは、メルスペクトログラム分析を通じて音声を処理する、コンパクトなトランスフォーマーベースのニューラルネットワークを使用しています。この軽量アーキテクチャは、効率的なCPU推論と最小限のメモリフットプリントで、リアルタイムパフォーマンスを実現するために特別に設計されています。

なぜCPU推論なのか?

小規模で頻繁な推論処理(リアルタイムのリップシンクなど)では、CPU処理の方がGPUよりも優れたレイテンシ特性を発揮します。バッチサイズ1で10~100ミリ秒の推論間隔の場合、PCIe転送やカーネル起動によるGPUのオーバーヘッドが実際の計算時間を上回ることがよくあります。さらに、ゲームエンジンではGPUがすでにレンダリング、シェーダー、物理演算で飽和状態にあるため、リソース競合が発生し、予測不能なレイテンシのスパイクを引き起こします。

ハードウェア互換性

このプラグインは、専用のグラフィックハードウェアを必要とせず、ほとんどのミッドレンジ以上のCPUで効率的に動作し、デスクトップ、モバイル、VRプラットフォームでリアルタイムのパフォーマンスを提供します。性能が低いハードウェアの場合は、モデルタイプ準最適化または高度に最適化に調整するか、**処理チャンクサイズ**を増やすことで、応答性がやや低下するものの、リアルタイムパフォーマンスを維持できます。

クイックスタート

以下は、キャラクターにリップシンクを有効にするための基本的なセットアップです。

  1. MetaHumanキャラクターの場合は、セットアップガイドに従ってください
  2. カスタムキャラクターの場合は、カスタムキャラクターセットアップガイドに従ってください
  3. 希望のリップシンクモデルを選択して設定します
  4. Blueprintでオーディオ入力処理を設定します
  5. Animation Blueprintで適切なリップシンクノードを接続します
  6. オーディオを再生し、キャラクターが同期してアニメーションするのを確認します

オプションの目のアニメーション

また、このプラグインにはメタヒューマン向けの自動まばたき視線追跡のためのオプションのヘルパーも含まれています。これらはリップシンクとは独立しており、単独で使用することも、リップシンクの上に重ねて使用することも可能です。目のアニメーションヘルパーを参照してください。

追加リソース

📦 ダウンロードとリンク

デモプロジェクト:

すぐに使えるデモプロジェクトが2つ用意されています。詳細、ダウンロード、チュートリアルについては、専用のデモプロジェクトページをご覧ください。

両方のデモはクロスプラットフォーム(Windows、Mac、Linux、iOS、Android、Meta Quest)に対応しており、パッケージ化されたビルドと完全なUE 5.6+ソースプロジェクトとして提供されます。

🎥 ビデオチュートリアル

注目のデモ:

リアルなモデル(高品質)チュートリアル:

標準モデルチュートリアル:

一般的な設定:

💬 サポート

  • カスタム開発: [email protected](チームや組織向けのカスタマイズされたソリューション)
Join our Discord
online · support