概要

Runtime MetaHuman Lip Sync は、MetaHuman およびカスタムキャラクターの両方に対して、リアルタイム、オフライン、クロスプラットフォームのリップシンクを可能にするプラグインです。以下のような様々なソースからのオーディオ入力に応じて、キャラクターの唇をアニメーションさせることができます:
- Runtime Audio Importer のキャプチャ可能なサウンドウェーブを介したマイク入力
- Runtime Text To Speech または Runtime AI Chatbot Integrator からの合成音声
- Runtime Audio Importer を介した複数のフォーマットでのストリーミングまたはインポートされたオーディオデータ
- 浮動小数点 PCM フォーマット(浮動小数点サンプルの配列)の任意のオーディオデータ
このプラグインは内部で、オーディオ入力に基づいてビセーム(音素の視覚的表現)を生成します。テキストではなくオーディオデータを直接扱うため、このプラグインは英語、スペイン語、フランス語、ドイツ語、日本語、中国語、韓国語、ロシア語、イタリア語、ポルトガル語、アラビア語、ヒンディー語など、多言語入力をサポートしています。文字通りあらゆる言語がサポートされます。これは、リップシンクが言語固有のテキスト処理ではなく、オーディオの音素から生成されるためです。
標準モデルは14のビセームを生成し、事前定義されたポーズアセットを使用してリップシンクアニメーションを実行します。一方、リアリスティックモデル(MetaHuman および ARKit ベースのキャラクター専用)は、事前定義されたポーズアセットに依存せずに81の顔面制御変化を生成し、はるかにリアルな顔面アニメーションを実現します。
キャラクター互換性
その名前に反して、Runtime MetaHuman Lip Sync は MetaHuman 以外の幅広いキャラクターでも動作します:
人気のある商用キャラクターシステム
- Daz Genesis 8/9 キャラクター
- Reallusion Character Creator 3/4 (CC3/CC4) キャラクター
- Mixamo キャラクター
- ReadyPlayerMe アバター
アニメーション標準サポート
- FACS ベースのブレンドシェイプシステム
- Apple ARKit ブレンドシェイプ標準
- Preston Blair 音素セット
- 3ds Max 音素システム
- 顔の表情用にカスタムモーフターゲットを持つ任意のキャラクター
MetaHuman 以外のキャラクターでプラグインを使用する詳細な手順については、カスタムキャラクターセットアップガイドを参照してください。
アニメーションプレビュー
以下の短いアニメーションで、プラグインが生成するリップシンクアニメーションの品質を、さまざまなキャラクタータイプとモデルでご確認ください:
主な機能
- マイク入力からのリアルタイムリップシンク
- オフライン音声処理サポート
- モデル固有のプラットフォームサポートによるクロスプラットフォーム互換性
- 複数のキャラクターシステムとアニメーション標準のサポート
- カスタムキャラクター向けの柔軟なバイセムマッピング
- 音声分析によるあらゆる話し言葉のサポート - 普遍的な言語サポート
- 表現力を高めるムード対応の顔面アニメーション
- 設定可能な出力タイプ(顔全体または口のみのコントロール)
リップシンクモデル
このプラグインは、さまざまなプロジェクトのニーズに合わせて複数のリップシンクモデルを提供します:
- Standard Model
- Realistic Model
- Mood-Enabled Realistic Model
Standard Modelは、効率的でクロスプラットフォームなパフォーマンスと幅広いキャラクター互換性を提供します:
- MetaHumansおよびすべてのカスタムキャラクタータイプで動作
- リアルタイムパフォーマンスに最適化
- リソース要件が低い
- プラットフォームサポート:Windows、Android、Androidベースのプラットフォーム(Meta Questを含む)
Standard Modelを使用するには、追加の拡張プラグインをインストールする必要があります。インストール手順については、前提条件セクションを参照してください。
Realistic Modelは、MetaHumanキャラクター向けに強化された視覚的忠実度を提供します:
- 高度な顔面アニメーション(81の顔面コントロール)を備えたMetaHumanおよびARKitベースのキャラクターと互換性あり
- より自然な口の動きで高い視覚品質を実現
- 若干高いパフォーマンス要件
- リアルタイムアプリケーション向けのストリーミング音声処理
- シネマティック体験やクローズアップのキャラクターインタラクションに最適
- 3つの最適化レベル:Original、Semi-Optimized、Highly Optimized
- 設定可能なモーフターゲットセット(モーフターゲットセットの選択を参照)
- プラットフォームサポート:Windows、Mac、iOS、Linux、Android、Androidベースのプラットフォーム(Meta Questを含む)
Realistic Modelはメインプラグインに含まれており、追加の拡張なしで使用できます。
Mood-Enabled Realistic Modelは、MetaHumanキャラクター向けの感情認識型顔面アニメーションを提供します:
- ムード応答型顔面アニメーション(81の顔面コントロール)を備えたMetaHumanおよびARKitベースのキャラクターと互換性あり
- 12種類の異なるムードタイプ(Neutral、Happy、Sad、Confidentなど)
- 設定可能なムード強度(0.0から1.0)
- 同期を改善するための調整可能な先読みタイミング(20msから200ms)
- 選択可能な出力タイプ:Full FaceまたはMouth Onlyコントロール
- リアルタイムアプリケーション向けのストリーミング音声処理
- 設定可能なモーフターゲットセット(モーフターゲットセットの選択を参照)
- プラットフォームサポート:Windows、Mac、iOS、Linux、Android、Androidベースのプラットフォーム(Meta Questを含む)
Mood-Enabled Realistic Modelはメインプラグインに含まれており、追加の拡張なしで使用できます。
パフォーマンス、キャラクター互換性、視覚品質、ターゲットプラットフォーム、機能要件に基づいて、適切なモデルを選択できます。
仕組み
このプラグインは、以下の方法で音声入力を処理します:
- 音声データは、指定されたチャンネル数とサンプルレートでPCMフォーマットの浮動小数点数として受信されます
- プラグインは音声を処理して、モデルに応じて顔面制御データまたはバイセムを生成します
- ムード対応モデルの場合、感情コンテキストが顔面アニメーションに適用されます
- アニメーションデータがキャラクターの顔の動きをリアルタイムで駆動します
パフォーマンスアーキテクチャ
Runtime MetaHuman Lip SyncはCPUのみの推論を使用し、リアルタイムアプリケーションに適した一貫性のある低遅延のリップシンク結果を提供します。デフォルトでは、プラグインは10ミリ秒ごとにリップシンク処理を実行します(調整可能 - 利用可能なすべての設定についてはプラグイン設定を参照してください。これには処理チャンクサイズ、スレッド数、およびその他のパフォーマンスパラメータが含まれます)。
モデルアーキテクチャ概要
リップシンクモデルは、メルスペクトログラム分析を通じて音声を処理するコンパクトなトランスフォーマーベースのニューラルネットワークを使用しています。この軽量アーキテクチャは、効率的なCPU推論と最小限のメモリフットプリントでリアルタイムパフォーマンスを実現するために特別に設計されています。
CPU推論を使用する理由
リアルタイムリップシンクのような小さく頻繁な推論操作の場合、CPU処理はGPUよりも優れた遅延特性を提供します。バッチサイズ1、10〜100msの推論間隔では、PCIe転送とカーネル起動によるGPUのオーバーヘッドが実際の計算時間を超えることがよくあります。さらに、ゲームエンジンではGPUはすでにレンダリング、シェーダー、物理演算で飽和状態にあり、リソース競合が発生して予測不可能な遅延スパイクを引き起こします。
ハードウェア互換性
このプラグインは、専用グラフィックスハードウェアを必要とせずに、ほとんどのミドルティア以上のCPUで効率的に動作し、デスクトップ、モバイル、VRプラットフォーム全体でリアルタイムパフォーマンスを提供します。性能の低いハードウェアでは、モデルタイプをSemi-OptimizedまたはHighly Optimizedに調整するか、**処理チャンクサイズ**を増やして、応答性をわずかに低下させながらリアルタイムパフォーマンスを維持できます。
クイックスタート
キャラクターでリップシンクを有効にする基本的なセットアップは以下の通りです:
- MetaHumanキャラクターの場合は、セットアップガイドに従ってください
- カスタムキャラクターの場合は、カスタムキャラクターセットアップガイドに従ってください
- 希望するリップシンクモデルを選択して設定します
- Blueprintで音声入力処理をセットアップします
- Animation Blueprintで適切なリップシンクノードを接続します
- 音声を再生して、感情豊かに話すキャラクターを確認してください!
追加リソース
📦 ダウンロードとリンク
デモプロジェクト:
- Speech-to-Speech Demo (Full AI Workflow):
- パッケージ化されたデモをダウンロード (Windows) ⭐ NEW
- ソースファイルをダウンロード (UE 5.6+) ⭐ NEW
- 音声認識 + AIチャットボット + TTS + リップシンクの完全なワークフロー
- 必要:このプラグイン + Runtime Audio Importer + Runtime Speech Recognizer + Runtime AI Chatbot Integrator、オプション:Runtime Text To Speech
- Basic Lip Sync Demo:
- パッケージ化されたデモをダウンロード (Windows)
- ソースファイルをダウンロード (UE 5.6+)
- 基本的なワークフロー:マイク入力、音声ファイル、TTS
- 必要:このプラグイン + Runtime Audio Importer、オプション:Text To Speech / AI Chatbot
- Standard Modelには小さな拡張プラグインが必要です(こちらを参照)
🎥 ビデオチュートリアル
注目のデモ:
Realistic Model (高品質) チュートリアル:
- 音声ファイル/バッファからの高品質リップシンク
- ムード制御とローカルTTSを使用した高品質リップシンク
- ElevenLabsおよびOpenAI TTSを使用した高品質リップシンク
- 高品質ライブマイクロフォンリップシンク
Standard Model チュートリアル:
- Standard Live Microphone Lip Sync
- ローカルテキスト読み上げを使用したStandard Lip Sync
- ElevenLabsおよびOpenAI TTSを使用したStandard Lip Sync
一般的なセットアップ:
💬 サポート
- カスタム開発: [email protected] (チームおよび組織向けのカスタマイズされたソリューション)