概要
Runtime MetaHuman Lip Sync は、MetaHumanおよびカスタムキャラクター 向けにリアルタイム、オフライン、クロスプラットフォームのリップシンクを可能にするプラグインです。以下のような様々な音声入力に応じてキャラクターの唇をアニメーションさせることができます:
- Runtime Audio Importer のキャプチャ可能なサウンドウェーブを介したマイク入力
- Runtime Text To Speech または Runtime AI Chatbot Integrator からの合成音声
- float PCM形式(浮動小数点サンプルの配列)の任意のオーディオデータ
このプラグインは内部的に、音声入力に基づいてviseme(音素の視覚的表現)を生成します。テキストではなくオーディオデータを直接処理するため、英語、スペイン語、フランス語、ドイツ語、日本語、中国語、韓国語、ロシア語、イタリア語、ポルトガル語、アラビア語、ヒンディー語など、文字通りあらゆる言語をサポートしています。これはリップシンクが言語固有のテキスト処理ではなく、オーディオ音素から生成されるためです。
Standard Model は 14のviseme を生成し、事前定義されたポーズアセットを使用してリップシンクアニメーションを実行します。一方、Realistic Model(MetaHuman キャラクター専用)は事前定義されたポーズアセットに依存せず 250のモーフターゲット変更 を生成するため、大幅にリアルな顔面アニメーションが可能です。
キャラクター互換性
名称にもかかわらず、Runtime MetaHuman Lip Sync はMetaHuman以外の幅広いキャラクターでも動作します:
人気商用キャラクターシステム
- Daz Genesis 8/9 キャラクター
- Reallusion Character Creator 3/4 (CC3/CC4) キャラクター
- Mixamo キャラクター
- ReadyPlayerMe アバター
アニメーション標準サポート
- FACSベースのブレンドシェイプシステム
- Apple ARKitブレンドシェイプ標準
- Preston Blair音素セット
- 3ds Max音素システム
- 顔の表情用にカスタムモーフターゲットを持つ任意のキャラクター
非MetaHumanキャラクターでのプラグイン使用に関する詳細な手順は、カスタムキャラクター設定ガイドを参照してください。
アニメーションプレビュー
以下の短いアニメーションで、プラグインが生成するリップシンクアニメーションの品質をさまざまなキャラクタータイプとモデルで確認できます:




主な機能
- マイク入力からのリア ルタイムリップシンク
- オフライン音声処理のサポート
- クロスプラットフォーム対応: Windows、Android、Meta Quest
- 複数のキャラクターシステムとアニメーション標準のサポート
- カスタムキャラクター向けの柔軟なバイセムマッピング
- 音声分析を通じたあらゆる言語のサポート
リップシンクモデル
本プラグインでは、プロジェクトのニーズに合わせて2種類のリップシンクモデルを提供しています:
- 標準モデル
- リアリスティックモデル
標準リップシンクモデルは、効率的なクロスプラットフォームパフォーマンスと幅広いキャラクター互換性を提供します:
- MetaHumansおよびすべてのカスタムキャラクタータイプで動作
- 全プラットフォーム向けにリアルタイムパフォーマンスを最適化
- リソース要件が低い
- ローカルTTS(Runtime Text To Speechプラグイン)との完全な互換性
- モバイルおよびVR/ARアプリケーションに適しています
標準(高速)モデルを使用するには、追加の拡張プラグインをインストールする必要があります。インストール手順については前提条件セクションを参照してください。
リアリスティックリップシンクモデルは、MetaHumanキャラクター向けに強化された視覚的忠実度を提供します:
- MetaHuman専用の高度な顔面アニメーション
- より自然な口の動きで高い視覚品質を実現
- やや高いパフォーマンス要件
- ローカルTTSのサポートが限定的(外部TTSサービスの推奨)
- シネマティック体験やクローズアップキャラクターインタラクションに最適
リアリスティックモデルはメインプラグインに含まれており、追加の拡張は必要ありません。
パフォーマンス、キャラクター互換性、視覚品質に基づいて、プロ ジェクトの要件に適したモデルを選択できます。
両モデルとも様々な音声入力方法をサポートしていますが、リアリスティックモデルはONNXランタイムの競合によりローカルTTSとの互換性が制限されています。リアリスティックモデルでテキスト読み上げ機能を使用する場合は、外部TTSサービス(OpenAI、ElevenLabs)の利用が推奨されます。
動作原理
本プラグインは以下の手順で音声入力を処理します:
- 音声データがPCMフォーマットのfloatとして、指定されたチャンネル数とサンプルレートで受信されます
- プラグインが音声を処理してバイセム(フォネーム)を生成します
- これらのバイセムがキャラクターのポーズアセットを使用してリップシンクアニメーションを駆動します
- アニメーションがリアルタイムでキャラクターに適用されます