概要

Runtime MetaHuman Lip Sync は、MetaHumanおよびカスタムキャラクター向けにリアルタイム、オフライン、クロスプラットフォームのリップシンクを可能にするプラグインです。以下のような様々な音声入力に応じてキャラクターの唇をアニメーションさせることができます:

Runtime Audio Importer のキャプチャ可能なサウンドウェーブを介したマイク入力
Runtime Text To Speech または Runtime AI Chatbot Integrator からの合成音声
float PCM形式（浮動小数点サンプルの配列）の任意のオーディオデータ

このプラグインは内部的に、音声入力に基づいてviseme（音素の視覚的表現）を生成します。テキストではなくオーディオデータを直接処理するため、英語、スペイン語、フランス語、ドイツ語、日本語、中国語、韓国語、ロシア語、イタリア語、ポルトガル語、アラビア語、ヒンディー語など、文字通りあらゆる言語をサポートしています。これはリップシンクが言語固有のテキスト処理ではなく、オーディオ音素から生成されるためです。

Standard Model は 14のviseme を生成し、事前定義されたポーズアセットを使用してリップシンクアニメーションを実行します。一方、Realistic Model（MetaHuman キャラクター専用）は事前定義されたポーズアセットに依存せず 250のモーフターゲット変更 を生成するため、大幅にリアルな顔面アニメーションが可能です。

キャラクター互換性

名称にもかかわらず、Runtime MetaHuman Lip Sync はMetaHuman以外の幅広いキャラクターでも動作します:

アニメーション標準サポート

FACSベースのブレンドシェイプシステム
Apple ARKitブレンドシェイプ標準
Preston Blair音素セット
3ds Max音素システム
顔の表情用にカスタムモーフターゲットを持つ任意のキャラクター

非MetaHumanキャラクターでのプラグイン使用に関する詳細な手順は、カスタムキャラクター設定ガイドを参照してください。

アニメーションプレビュー

以下の短いアニメーションで、プラグインが生成するリップシンクアニメーションの品質をさまざまなキャラクタータイプとモデルで確認できます:

Realistic Lip Sync Example — *MetaHumanキャラクターを使用したリアルなモデル*

Standard Lip Sync Example — *MetaHumanキャラクターを使用した標準モデル*

Custom Character Lip Sync Example — *カスタムキャラクターを使用した標準モデル*

主な機能

マイク入力からのリアルタイムリップシンク
オフライン音声処理のサポート
クロスプラットフォーム対応: Windows、Android、Meta Quest
複数のキャラクターシステムとアニメーション標準のサポート
カスタムキャラクター向けの柔軟なバイセムマッピング
音声分析を通じたあらゆる言語のサポート

リップシンクモデル

本プラグインでは、プロジェクトのニーズに合わせて2種類のリップシンクモデルを提供しています:

標準モデル
リアリスティックモデル

標準リップシンクモデルは、効率的なクロスプラットフォームパフォーマンスと幅広いキャラクター互換性を提供します:

MetaHumansおよびすべてのカスタムキャラクタータイプで動作
全プラットフォーム向けにリアルタイムパフォーマンスを最適化
リソース要件が低い
ローカルTTS（Runtime Text To Speechプラグイン）との完全な互換性
モバイルおよびVR/ARアプリケーションに適しています

拡張プラグインが必要

標準（高速）モデルを使用するには、追加の拡張プラグインをインストールする必要があります。インストール手順については前提条件セクションを参照してください。

パフォーマンス、キャラクター互換性、視覚品質に基づいて、プロジェクトの要件に適したモデルを選択できます。

TTS互換性に関する注意

両モデルとも様々な音声入力方法をサポートしていますが、リアリスティックモデルはONNXランタイムの競合によりローカルTTSとの互換性が制限されています。リアリスティックモデルでテキスト読み上げ機能を使用する場合は、外部TTSサービス（OpenAI、ElevenLabs）の利用が推奨されます。

動作原理

本プラグインは以下の手順で音声入力を処理します:

音声データがPCMフォーマットのfloatとして、指定されたチャンネル数とサンプルレートで受信されます
プラグインが音声を処理してバイセム（フォネーム）を生成します
これらのバイセムがキャラクターのポーズアセットを使用してリップシンクアニメーションを駆動します
アニメーションがリアルタイムでキャラクターに適用されます

クイックスタート

キャラクターでリップシンクを有効にする基本的なセットアップは以下の通りです:

MetaHumanキャラクターの場合は、MetaHumanセットアップガイドに従ってください
カスタムキャラクターの場合は、カスタムキャラクターセットアップガイドに従ってください
オーディオ入力処理を設定します（イベントグラフなどで）
Anim GraphでBlend Runtime MetaHuman Lip Syncノードを接続します
オーディオを再生してキャラクターが話すのを確認しましょう！

追加リソース

📦 ダウンロード＆リンク

Fabで入手
製品ウェブサイト
デモ版ダウンロード（Windows）
デモソースファイルダウンロード（UE 5.6） – このプラグインとRuntime Audio Importerが必要です。オプション：Text To Speech / AI Chatbot。標準モデルには小さな拡張プラグインが必要です（こちらを参照）

🎥 ビデオチュートリアル

注目デモ:

リアルなモデルデモ – 高精度版 ⭐ 新着

リアルなモデル（高品質）チュートリアル:

ElevenLabs & OpenAI TTSを使った高品質リップシンク ⭐ 新着
高品質ライブマイクリップシンク ⭐ 新着

標準モデルチュートリアル:

一般的なセットアップ:

💬 サポート

Discordサポートサーバー
カスタム開発: [email protected]（チームや組織向けのカスタムソリューション）

キャラクター互換性​

人気商用キャラクターシステム​

アニメーション標準サポート​

アニメーションプレビュー​

主な機能​

リップシンクモデル​

動作原理​

クイックスタート​

追加リソース​

📦 ダウンロード＆リンク​

🎥 ビデオチュートリアル​

注目デモ:​

リアルなモデル（高品質）チュートリアル:​

標準モデルチュートリアル:​

一般的なセットアップ:​

💬 サポート​