メインコンテンツまでスキップ

概要

Runtime MetaHuman Lip Sync ドキュメント

Runtime MetaHuman Lip Sync は、MetaHuman とカスタムキャラクターの両方に対して、リアルタイム、オフライン、クロスプラットフォームのリップシンクを実現するプラグインです。以下のような様々なソースからのオーディオ入力に応じて、キャラクターの唇をアニメーションさせることができます:

このプラグインは内部で、オーディオ入力に基づいてビセーム(音素の視覚的表現)を生成します。テキストではなくオーディオデータを直接扱うため、このプラグインは英語、スペイン語、フランス語、ドイツ語、日本語、中国語、韓国語、ロシア語、イタリア語、ポルトガル語、アラビア語、ヒンディー語など、多言語入力をサポートしています。文字通りあらゆる言語がサポートされます。これは、リップシンクが言語固有のテキスト処理ではなく、オーディオの音素から生成されるためです。

標準モデル14のビセーム を生成し、事前定義されたポーズアセットを使用してリップシンクアニメーションを実行します。一方、リアリスティックモデル (MetaHuman キャラクター専用) は、事前定義されたポーズアセットに依存せずに 81の顔制御変更 を生成し、大幅にリアルな顔面アニメーションを実現します。

キャラクター互換性

その名前に反して、Runtime MetaHuman Lip Sync は MetaHuman 以外の幅広いキャラクターでも動作します:

人気の商用キャラクターシステム

  • Daz Genesis 8/9 キャラクター
  • Reallusion Character Creator 3/4 (CC3/CC4) キャラクター
  • Mixamo キャラクター
  • ReadyPlayerMe アバター

アニメーション標準サポート

  • FACS ベースの blendshape システム
  • Apple ARKit blendshape 標準
  • Preston Blair 音素セット
  • 3ds Max 音素システム
  • 顔の表情用にカスタム morph target を持つ任意のキャラクター

MetaHuman 以外のキャラクターでプラグインを使用する詳細な手順については、カスタムキャラクターセットアップガイド を参照してください。

アニメーションプレビュー

これらの短いアニメーションをチェックして、異なるキャラクタータイプとモデルでプラグインが生成するリップシンクアニメーションの品質を確認してください:

Realistic Lip Sync Example
MetaHumanキャラクターを使用したリアルなモデル
Standard Lip Sync Example
MetaHuman キャラクターを使用した標準モデル
Custom Character Lip Sync Example
カスタムキャラクターを使用した標準モデル
Custom Character Lip Sync Example
カスタムキャラクターを使用した標準モデル

主な機能

  • マイク入力からのリアルタイム Lip Sync
  • オフライン音声処理のサポート
  • モデル固有のプラットフォームサポートによるクロスプラットフォーム互換性
  • 複数のキャラクターシステムとアニメーション標準のサポート
  • カスタムキャラクターのための柔軟なバイセムマッピング
  • 音声分析によるあらゆる話し言葉の普遍的な言語サポート
  • 表現力を高める感情認識顔面アニメーション
  • 設定可能な出力タイプ(顔全体または口のみの制御)

Lip Sync モデル

このプラグインは、さまざまなプロジェクトのニーズに合わせて複数の Lip Sync モデルを提供します:

標準 Lip Sync モデルは、効率的でクロスプラットフォームなパフォーマンスと幅広いキャラクター互換性を提供します:

  • MetaHumans およびすべてのカスタムキャラクタータイプで動作
  • リアルタイムパフォーマンスに最適化
  • 低いリソース要件
  • ローカル TTS (Runtime Text To Speech プラグイン) との完全な互換性
  • プラットフォームサポート: Windows, Android, Androidベースのプラットフォーム (Meta Quest を含む)
  • 3つの最適化レベル: オリジナル、セミ最適化、高度に最適化
拡張プラグイン必須

標準モデル を使用するには、追加の拡張プラグインをインストールする必要があります。インストール手順については 前提条件セクション を参照してください。

パフォーマンス、キャラクター互換性、画質、ターゲットプラットフォーム、機能要件に基づいて、プロジェクトに適したモデルを選択できます。

TTS互換性に関する注意

すべてのモデルが様々なオーディオ入力方法をサポートしていますが、通常のRealisticモデルはONNXランタイムの競合により、ローカルTTSとの互換性が制限されています。ただし、Mood-Enabled RealisticモデルはローカルTTSと完全に互換性があります。テキスト読み上げ機能については:

  • Standard Model: すべてのTTSオプション(ローカルおよび外部)と互換性あり
  • Realistic Model: 外部TTSサービスの利用を推奨(OpenAI, ElevenLabs)
  • Mood-Enabled Realistic Model: すべてのTTSオプション(ローカルおよび外部)と互換性あり

仕組み

プラグインは以下の方法でオーディオ入力を処理します:

  1. オーディオデータは、指定されたチャンネル数サンプルレートPCMフォーマットのfloatとして受信されます
  2. プラグインはオーディオを処理して、モデルに応じて顔制御データまたはバイセムを生成します
  3. ムード対応モデルでは、感情コンテキストが顔のアニメーションに適用されます
  4. アニメーションデータがキャラクターの顔の動きをリアルタイムで駆動します

クイックスタート

キャラクターにリップシンクを有効にする基本的なセットアップは以下の通りです:

  1. MetaHumanキャラクターの場合は、セットアップガイドに従ってください
  2. カスタムキャラクターの場合は、カスタムキャラクターセットアップガイドに従ってください
  3. 希望するリップシンクモデルを選択して設定します
  4. Blueprintでオーディオ入力処理をセットアップします
  5. Animation Blueprintで適切なリップシンクノードを接続します
  6. オーディオを再生して、キャラクターが感情を込めて話す様子を確認しましょう!

追加リソース

📦 ダウンロード & リンク

🎥 ビデオチュートリアル

注目のデモ:

リアリスティックモデル(高品質)チュートリアル:

スタンダードモデルチュートリアル:

一般セットアップ:

💬 サポート