概述

Runtime MetaHuman Lip Sync 是一個插件,可為 MetaHuman 和自訂角色實現即時、離線和跨平台的嘴型同步。它允許您根據來自各種來源的音訊輸入來動畫化角色的嘴唇,包括:
- 透過 Runtime Audio Importer 的 可捕捉音波 進行麥克風輸入
- 來自 Runtime Text To Speech 或 Runtime AI Chatbot Integrator 的合成語音
- 透過 Runtime Audio Importer 以多種格式串流或匯入的音訊資料
- 任何 float PCM 格式的音訊資料(浮點樣本陣列)
該插件會根據音訊輸入在內部生成 visemes(音素的視覺表現)。由於它直接處理音訊資料而非文字,該插件支援多語言輸入,包括但不限於英語、西班牙語、法語、德語、日語、中文、韓語、俄語、義大利語、葡萄牙語、阿拉伯語和印地語。實際上支援任何語言,因為嘴型同步是從音訊音素而非特定語言的文字處理生成的。
標準模型 產生 14 個 visemes,並使用預定義的姿勢資源執行嘴型同步動畫。相比之下,逼真模型(專屬於 MetaHuman 和基於 ARKit 的角色)會生成 81 個面部控制變化,無需依賴預定義的姿勢資源,從而產生顯著更逼真的面部動畫。
角色相容性
儘管名稱如此,Runtime MetaHuman Lip Sync 可與除 MetaHuman 之外的廣泛角色配合使用:
熱門商業角色系統
- Daz Genesis 8/9 角色
- Reallusion Character Creator 3/4 (CC3/CC4) 角色
- Mixamo 角色
- ReadyPlayerMe 虛擬化身
動畫標準支援
- 基於 FACS 的 blendshape 系統
- Apple ARKit blendshape 標準
- Preston Blair 音素集合
- 3ds Max 音素系統
- 任何具有自訂面部表情變形目標的角色
對於使用標準模型的非 MetaHuman 角色,請參閱自訂角色設定指南。對於使用逼真模型的基於 ARKit 的角色,請參閱變形目標集選擇。
動畫預覽
觀看這些短片,了解該插件在不同角色類型和模型下產生的嘴型同步動畫品質:
主要功能
- 從麥克風輸入進行即時嘴型同步
- 支援離線音訊處理
- 跨平台相容性,並針對特定模型提供平台支援
- 支援多種角色系統與動畫標準
- 針對自訂角色的靈活 Viseme 映射
- 通用語言支援 - 透過音訊分析適用於任何口語語言
- 情緒感知臉部動畫,提升表現力
- 可設定的輸出類型(全臉或僅嘴部控制)
- 可選的眼部動畫輔助工具,用於眨眼與視線追蹤
嘴型同步模型
此插件提供多種嘴型同步模型,以滿足不同的專案需求:
- 標準模型
- 擬真模型
- 情緒感知擬真模型
標準嘴型同步模型提供高效能、跨平台的表現,並具有廣泛的角色相容性:
- 適用於 MetaHuman 及所有自訂角色類型
- 針對即時效能進行最佳化
- 較低的資源需求
- 平台支援:Windows、Android、基於 Android 的平台(包括 Meta Quest)
若要使用標準模型,您需要安裝額外的擴展插件。請參閱先決條件章節以了解安裝說明。
擬真嘴型同步模型專為 MetaHuman 角色提供增強的視覺真實度:
- 相容於 MetaHuman 及基於 ARKit 的角色,具備進階臉部動畫(81 個臉部控制項)
- 更高的視覺品質,嘴部動作更自然
- 略高的效能需求
- 串流音訊處理,適用於即時應用
- 非常適合電影級體驗與近距離角色互動
- 三種最佳化等級:原始、半最佳化、高度最佳化
- 可設定的 Morph Target 集合(請參閱 Morph Target 集合選擇)
- 平台支援:Windows、Mac、iOS、Linux、Android、基於 Android 的平台(包括 Meta Quest)
擬真模型包含在主插件中,使用時無需任何額外擴展。
情緒感知擬真模型為 MetaHuman 角色提供具備情緒感知能力的臉部動畫:
- 相容於 MetaHuman 及基於 ARKit 的角色,具備情緒響應式臉部動畫(81 個臉部控制項)
- 12 種不同的情緒類型(中性、快樂、悲傷、自信等)
- 可設定的情緒強度(0.0 至 1.0)
- 可調整的預測時機,以改善同步(20 毫秒至 200 毫秒)
- 可選擇的輸出類型:全臉控制或僅嘴部控制
- 串流音訊處理,適用於即時應用
- 可設定的 Morph Target 集合(請參閱 Morph Target 集合選擇)
- 平台支援:Windows、Mac、iOS、Linux、Android、基於 Android 的平台(包括 Meta Quest)
情緒感知擬真模型包含在主插件中,使用時無需任何額外擴展。
您可以根據專案在效能、角色相容性、視覺品質、目標平台及功能需求方面的要求,選擇合適的模型。
運作原理
此插件透過以下方式處理音訊輸入:
- 音訊資料以浮點 PCM 格式接收,並帶有指定的通道數與取樣率
- 插件處理音訊以產生臉部控制資料或 Visemes,具體取決於模型
- 對於情緒感知模型,情緒背景資訊會被應用於臉部動畫
- 動畫資料即時驅動角色的臉部動作
效能架構
Runtime MetaHuman Lip Sync 使用僅限 CPU 的推理,以提供適合即時應用的一致、低延遲嘴型同步結果。預設情況下,插件每 10 毫秒執行一次嘴型同步處理(可調整 - 請參閱插件設定以了解所有可用設定,包括處理區塊大小、執行緒數量及其他效能參數)。
模型架構概述
嘴型同步模型使用緊湊的基於 Transformer 的神經網路,透過梅爾頻譜圖分析來處理音訊。這種輕量級架構專為即時效能而設計,具有高效的 CPU 推理和最小的記憶體佔用。
為何使用 CPU 推理?
對於像即時嘴型同步這樣的小型、頻繁的推理操作,CPU 處理比 GPU 提供更好的延遲特性。在批次大小為 1、推理間隔為 10-100 毫秒的情況下,來自 PCIe 傳輸和核心啟動的 GPU 開銷通常超過實際計算時間。此外,在遊戲引擎中,GPU 已經被渲染、著色器和物理模擬所飽和,這會產生資源競爭,導致不可預測的延遲峰值。
硬體相容性
此插件在大多數中階及更高階的 CPU 上都能高效運作,無需專用圖形硬體,可在桌上型電腦、行動裝置和 VR 平台上提供即時效能。對於較弱的硬體,您可以將模型類型調整為半最佳化或高度最佳化,或增加**處理區塊大小**,以在略微降低響應速度的情況下維持即時效能。
快速入門
以下是為您的角色啟用嘴型同步的基本設定:
- 對於 MetaHuman 角色,請遵循設定指南
- 對於自訂角色,請遵循自訂角色設定指南
- 選擇並設定您偏好的嘴型同步模型
- 在 Blueprint 中設定音訊輸入處理
- 在 Animation Blueprint 中連接適當的嘴型同步節點
- 播放音訊,即可看到您的角色同步動畫
可選眼部動畫
此插件還包含用於 MetaHuman 的自動眨眼和視線追蹤的可選輔助工具。這些功能獨立於嘴型同步,可以單獨使用或疊加在其之上。請參閱眼部動畫輔助工具。
其他資源
📦 下載與連結
示範專案:
提供兩個立即可用的示範專案 - 請參閱專用的示範專案頁面以了解完整詳細資訊、下載與逐步解說:
- 完整 AI 對話 NPC 工作流程 - 語音辨識 + LLM 聊天機器人 + TTS + 嘴型同步
- 基本嘴型同步示範 - 麥克風輸入、音訊檔案、TTS
兩個示範皆為跨平台(Windows、Mac、Linux、iOS、Android、Meta Quest),並以打包建置版本和完整 UE 5.6+ 原始碼專案形式提供。
🎥 影片教學
精選示範:
擬真模型(高品質)教學:
標準模型教學:
一般設定:
💬 支援
- 自訂開發: [email protected](為團隊與組織提供量身打造的解決方案)