概要
Runtime MetaHuman Lip Sync は、MetaHuman とカスタムキャラクターの両方に対して、リアルタイム、オフライン、クロスプラットフォームのリップシンクを実現するプラグインです。以下のような様々なソースからのオーディオ入力に応じて、キャラクターの唇をアニメーションさせることができます:
- Runtime Audio Importer の キャプチャ可能サウンドウェーブ を介したマイク入力
- Runtime Text To Speech または Runtime AI Chatbot Integrator からの合成音声
- float PCM フォーマット(浮動小数点サンプルの配列)の任意のオーディオデータ
このプラグインは内部で、オーディオ入力に基づいてビセーム(音素の視覚的表現)を生成します。テキストではなくオーディオデータを直接扱うため、このプラグインは英語、スペイン語、フランス語、ドイツ語、日本語、中国語、韓国語、ロシア語、イタリア語、ポルトガル語、アラビア語、ヒンディー語など、多言語入力をサポートしています。文字通りあらゆる言語がサポートされます。これは、リップシンクが言語固有のテキスト処理ではなく、オーディオの音素から生成されるためです。
標準モデル は 14のビセーム を生成し、事前定義されたポーズアセットを使用してリップシンクアニメーションを実行します。一方、リアリスティックモデル (MetaHuman キャラクター専用) は、事前定義されたポーズアセットに依存せずに 81の顔制御変更 を生成し、大幅にリアルな顔面アニメーションを実現します。
キャラクター互換性
その名前に反して、Runtime MetaHuman Lip Sync は MetaHuman 以外の幅広いキャラクターでも動作します:
人気の商用キャラクターシステム
- Daz Genesis 8/9 キャラクター
- Reallusion Character Creator 3/4 (CC3/CC4) キャラクター
- Mixamo キャラクター
- ReadyPlayerMe アバター
アニメーション標準サポート
- FACS ベースの blendshape システム
- Apple ARKit blendshape 標準
- Preston Blair 音素セット
- 3ds Max 音素システム
- 顔の表情用にカスタム morph target を持つ任意のキャラクター
MetaHuman 以外のキャラクターでプラグインを使用する詳細な手順については、カスタムキャラクターセットアップガイド を参照してください。
アニメーションプレビュー
これらの短いアニメーションをチェックして、異なるキャラクタータイプとモデルでプラグインが生成するリップシンクアニメーションの品質を確認してください:




主な機能
- マイク入力からのリアルタイム Lip Sync
- オフライン音声処理のサポート
- モデル固有のプラットフォームサポートによるクロスプラットフォーム互換性
- 複数のキャラクターシステムとアニメーション標準のサポート
- カスタムキャラクターのための柔軟なバイセムマッピング
- 音声分析によるあらゆる話し言葉の普遍的な言語サポート
- 表現力を高める感情認識顔面アニメーション
- 設定可能な出力タイプ(顔全体または口のみの制御)
Lip Sync モデル
このプラグインは、さまざまなプロジェクトのニーズに合わせて複数の Lip Sync モデルを提供します:
- 標準モデル
- リアリスティックモデル
- 感情対応リアリスティックモデル
標準 Lip Sync モデルは、効率的でクロスプラットフォームなパフォーマンスと幅広いキャラクター互換性を提供します:
- MetaHumans およびすべてのカスタムキャラクタータイプで動作
- リアルタイムパフォーマンスに最適化
- 低いリソース要件
- ローカル TTS (Runtime Text To Speech プラグイン) との完全な互換性
- プラットフォームサポート: Windows, Android, Androidベースのプラットフォーム (Meta Quest を含む)
- 3つの最適化レベル: オリジナル、セミ最適化、高度に最適化
標準モデル を使用するには、追加の拡張プラグインをインストールする必要があります。インストール手順については 前提条件セクション を参照してください。
リアリスティック Lip Sync モデルは、MetaHuman キャラクター専用に強化された視覚的忠実度を提供します:
- MetaHuman 専用の高度な顔面アニメーション (81の顔面制御)
- より自然な口の動きによる高い視覚品質
- やや高いパフォーマンス要件
- 限定的なローカル TTS サポート (外部 TTS サービスの利用推奨)
- シネマティック体験およびクローズアップのキャラクターインタラクションに最適
- プラットフォームサポート: Windows, Mac, iOS, Linux
- 3つの最適化レベル: オリジナル、セミ最適化、高度に最適化
リアリスティックモデル はメインプラグインに含まれており、追加の拡張なしで使用できます。
感情対応リアリスティックモデルは、MetaHuman キャラクターの感情認識顔面アニメーションを提供します:
- 感情に応答する顔面アニメーションを備えた MetaHuman 専用
- 12種類の異なる感情タイプ (Neutral, Happy, Sad, Confident など)
- 設定可能な感情強度 (0.0 から 1.0)
- 同期を改善するための調整可能な先読みタイミング (20ms から 200ms)
- 選択可能な出力タイプ: 顔全体または口のみの制御
- リアルタイムアプリケーションのためのストリーミング音声処理
- プラットフォームサポート: Windows, Mac, iOS, Linux
Mood-Enabled Model* には、設定可能な先読みタイミングや選択的な制御出力などの高度な機能が含まれており、感情表現の制御を必要とするアプリケーションに最適です。
パフォーマンス、キャラクター互換性、画質、ターゲットプラットフォーム、機能要件に基づいて、プロジェクトに適したモデルを選択できます。
すべてのモデルが様々なオーディオ入力方法をサポートしていますが、通常のRealisticモデルはONNXランタイムの競合により、ローカルTTSとの互換性が制限されています。ただし、Mood-Enabled RealisticモデルはローカルTTSと完全に互換性があります。テキスト読み上げ機能については:
- Standard Model: すべてのTTSオプション(ローカルおよび外部)と互換性あり
- Realistic Model: 外部TTSサービスの利用を推奨(OpenAI, ElevenLabs)
- Mood-Enabled Realistic Model: すべてのTTSオプション(ローカルおよび外部)と互換性あり
仕組み
プラグインは以下の方法でオーディオ入力を処理します:
- オーディオデータは、指定されたチャンネル数とサンプルレートでPCMフォーマットのfloatとして受信されます
- プラグインはオーディオを処理して、モデルに応じて顔制御データまたはバイセムを生成します
- ムード対応モデルでは、感情コンテキストが顔のアニメーションに適用されます
- アニメーションデータがキャラクターの顔の動きをリアルタイムで駆動します
クイックスタート
キャラクターにリップシンクを有効にする基本的なセットアップは以下の通りです:
- MetaHumanキャラクターの場合は、セットアップガイドに従ってください
- カスタムキャラクターの場合は、カスタムキャラクターセットアップガイドに従ってください
- 希望するリップシンクモデルを選択して設定します
- Blueprintでオーディオ入力処理をセットアップします
- Animation Blueprintで適切なリップシンクノードを接続します
- オーディオを再生して、キャラクターが感情を込めて話す様子を確認しましょう!
追加リソース
📦 ダウンロード & リンク
- Fabで入手
- 製品ウェブサイト
- デモ版ダウンロード (Windows)
- デモ版ソースファイルダウンロード (UE 5.6) – このプラグイン + Runtime Audio Importer が必要、オプション: Text To Speech / AI Chatbot。Standardモデルには小さな拡張プラグインが必要です(こちらを参照)
🎥 ビデオチュートリアル
注目のデモ:
リアリスティックモデル(高品質)チュートリアル:
スタンダードモデルチュートリアル:
- スタンダードなライブマイクLip Sync
- ローカルText-to-Speechを使用したスタンダードなLip Sync
- ElevenLabsとOpenAI TTSを使用したスタンダードなLip Sync
一般セットアップ:
💬 サポート
- Discordサポートサーバー
- カスタム開発: [email protected] (チームや組織向けのカスタマイズされたソリューション)