示範專案

為協助您快速上手 Runtime MetaHuman Lip Sync，我們提供了兩個可直接使用的示範專案。兩者皆以 Unreal Engine 5.6+ 建置，僅使用 Blueprint，並可跨平台執行於 Windows、Mac、Linux、iOS、Android 及 Android 平台（包含 Meta Quest）。

可用的示範專案

AI 對話式 NPC / 互動式虛擬角色
基本嘴型同步示範

一個完整的 AI 對話虛擬角色工作流程，結合了語音辨識、AI 聊天機器人（LLM）、文字轉語音、音訊播放以及即時嘴型同步——全部在單一專案中同時運作。適用於多種使用情境，包括遊戲、互動資訊站、虛擬製作、博物館裝置、數位助理以及訓練模擬。

## 管線概覽

🎤 Microphone → Speech Recognition → 💬 LLM Chatbot → 🔊 Text-to-Speech → 👄 Lip Sync + Playback

當 LLM 設定為串流模式時，其輸出會逐句分割，並在每句完成時立即傳送至 TTS，而非等待完整回應，以最大程度降低延遲。

影片

快速預覽（約30秒）

示範運作中的簡短展示。

完整逐步指南

涵蓋設定、配置及完整對話管線的詳細逐步指南。

下載

必要與選用插件

示範專案是模組化的——您只需要安裝您想使用的供應商對應的外掛程式即可。

外掛程式	目的	必要嗎？
Runtime MetaHuman Lip Sync	唇形同步動畫	✅ 總是
Runtime Audio Importer	音訊擷取與處理	✅ 總是
Runtime Speech Recognizer	離線語音辨識 (whisper.cpp)	✅ 總是
Runtime AI Chatbot Integrator	外部 LLM（OpenAI、Claude、DeepSeek、Gemini、Grok、Ollama）和/或外部 TTS（OpenAI、ElevenLabs）	🔶 可選
Runtime Local LLM	透過 llama.cpp 進行本地 LLM 推論（Llama、Mistral、Gemma 等 GGUF 模型）	🔶 可選
Runtime Text To Speech	透過 Piper 與 Kokoro 實現本地端 TTS	🔶 可選

選用插件 - 提供者需求

雖然上述每個外掛都是獨立可選的，但示範運作需要至少一個 LLM 提供者和至少一個 TTS 提供者。您可以自由混搭（例如：本地 LLM + ElevenLabs TTS，或 OpenAI LLM + 本地 TTS）。

模組化架構

在 Content 資料夾中，您會找到一個 Modules 資料夾，裡面包含三個子資料夾：

Content/
└── Modules/
    ├── RuntimeAIChatbotIntegrator/   ← External LLMs and/or external TTS
    ├── RuntimeLocalLLM/              ← Local LLM via llama.cpp
    └── RuntimeTextToSpeech/          ← Local TTS via Piper/Kokoro

若您未取得一個（或多個）選用外掛程式，只需刪除對應的資料夾即可。示範專案的基礎資產（如遊戲實例、小工具等）並未直接參照這些模組，因此刪除它們不會造成資產參照錯誤。設定介面會自動隱藏任何缺少對應資料夾的提供者。

備註

此模組化僅適用於 LLM 與 TTS 提供者。語音辨識（Runtime Speech Recognizer）與嘴型同步（Runtime MetaHuman Lip Sync）屬於基礎示範專案的一部分，且為必備元件。

Modules folder structure

注意

首次啟動時，Unreal 可能會詢問是否要停用任何遺失的選用外掛程式 — 請點選是。請同時確認已刪除對應的 Content/Modules/ 資料夾（請參閱上方說明）。

示範專案佈局

UI 僅供示範用途

下方顯示的使用者介面完全以 UMG（Unreal Motion Graphics）建構，其目的純粹是為了展示流程——語音辨識 → LLM → TTS → 嘴型同步。您可以自由重新設計或替換此介面，以符合專案的視覺風格、控制方式或平台（VR/AR、手機、主機、資訊站等）。若某些元件在您的使用情境中不需要，也可以直接隱藏（例如將其可見性設為 Collapsed 或 Hidden）。

Annotated overview of the demo project main screen

Area	這裡有什麼
置中	MetaHuman 角色。
左側	四個設定按鈕（語音辨識、AI 聊天機器人、文字轉語音、動畫），詳細說明如下。
置中底部	一個開始錄音按鈕。點擊即可開始語音對話：您的麥克風會擷取聲音、轉錄為文字、傳送給 LLM，回應會透過 TTS 合成，並搭配嘴型同步播放，全程無需動手操作。
右中	一個對話歷史記錄小工具，顯示您與AI之間完整的來回對話（包含使用者與助理的訊息）。此外，它還包含一個文字輸入欄位，讓您可以直接輸入訊息，無需使用語音辨識功能，這在測試、無障礙使用或沒有麥克風的情況下非常實用。

提示

您可以在同一個工作階段中自由混合使用兩種輸入模式——部分訊息用說的，部分用打的。

提示

如果唇形同步在測試時間越長時，與音訊的延遲差距持續擴大（而非固定延遲），請參閱下方設定動畫中的處理區塊大小。

設定按鈕

左側的四個設定按鈕會開啟管線中各個部分的專屬面板：

1. 設定語音辨識

設定使用者語音的擷取與轉錄方式：

選擇語言
調整語音辨識參數（Whisper 模型設定）
設定AEC（聲學迴聲消除）
設定VAD（語音活動偵測）

Speech recognition configuration screen

2. 配置 AI 聊天機器人

選擇您的 LLM 提供者並進行設定：

選擇提供者（Runtime AI Chatbot Integrator 或 Runtime Local LLM）
選擇模式：一般或串流（依提供者而定，串流模式可啟用逐句 TTS 傳遞，詳見流程概覽）
對於外部提供者：驗證令牌、模型名稱等
對於本地 LLM：選擇一個 GGUF 模型，設定上下文大小及其他推論參數。您也可以直接在示範中於執行階段下載自己的 GGUF 模型（例如透過 URL），並立即使用，無需重新建置專案。

提示

提供者下拉選單僅顯示其外掛模組資料夾存在於 Content/Modules/ 中的提供者。

AI chatbot configuration - Runtime AI Chatbot Integrator (external LLM)

AI chatbot configuration - Runtime Local LLM (local GGUF)

3. 設定文字轉語音

選擇您的 TTS 提供者並設定語音/模型：

選擇 提供者（適用於 OpenAI/ElevenLabs 的 Runtime AI Chatbot Integrator，或適用於本地 Piper/Kokoro 的 Runtime Text To Speech）
選擇模式：一般或串流（控制音訊是一次性回傳，還是隨合成過程逐步回傳）
選擇 語音/模型
調整提供者專屬參數

TTS configuration - Runtime AI Chatbot Integrator (external TTS)

TTS configuration - Runtime Local Text To Speech (local Piper/Kokoro)

4. 設定動畫

控制 AI 虛擬角色的視覺效果：

從 3 個預先下載的 MetaHuman 角色（Aera、Ada、Orlando）中選擇
選擇嘴型同步模型（標準或擬真）
選擇嘴型同步模型類型 - 高度最佳化、半最佳化或原始（請參閱模型類型）
調整處理區塊大小 - 控制嘴型同步推論的執行頻率（請參閱處理區塊大小）
- 若在 CPU 負載下，嘴型同步隨著時間逐漸落後於音訊，請將此值提高至 480 或 640。
選擇一個待機動畫，讓 MetaHuman 在對話時播放。

Animations configuration screen

在編輯器中預先配置示範

使用原始版本時，您可以直接在編輯器中預先填入預設值，這樣每次執行時就不需要重新輸入數值：

What	哪裡
一般設定（唇形同步模型、待機動畫、角色類別、語音辨識等）	`Content/LipSyncSTSGameInstance`
外部 LLM / 外部 TTS 設定（Runtime AI 聊天機器人整合器）	`Content/Modules/RuntimeAIChatbotIntegrator/RuntimeAIChatbotIntegrator_Provider`
Local LLM 設定（Runtime Local LLM）	`Content/Modules/RuntimeLocalLLM/RuntimeLocalLLM_Provider`
本地 TTS 設定（執行階段文字轉語音）	`Content/Modules/RuntimeTextToSpeech/RuntimeTextToSpeech_Provider`

跨平台注意事項

示範專案所使用的所有外掛皆支援 Windows、Mac、Linux、iOS、Android 以及基於 Android 的平台（包含 Meta Quest），因此示範專案同樣可在上述所有環境中運作。這使其適合部署於多種場景——從遊戲、桌面資訊站，到行動應用程式、獨立 VR 頭戴裝置，以及片場虛擬製作設定。

針對效能較弱的裝置（如手機、獨立式VR裝置），您可能想要：

使用標準嘴型同步模型而非擬真模型——請參閱模型比較
切換至高度優化模型類型
增加處理區塊大小以降低CPU負載
選用較小的LLM / TTS模型

請參閱平台特定配置以了解在 Android、iOS、Mac 和 Linux 上的額外設定步驟。

支援像素串流

在 Pixel Streaming 上部署示範（點擊展開）

AI 對話示範專案也適用於 Pixel Streaming 環境，讓您可以將 MetaHuman 虛擬角色串流至遠端客戶端（例如網頁瀏覽器），同時從客戶端擷取使用者的麥克風音訊。只需對示範專案進行一項變更即可。

1. 安裝 Runtime Audio Importer 的 Pixel Streaming 擴充功能

Runtime Audio Importer 外掛提供了一個免費的擴充外掛，可讓您從 Pixel Streaming 用戶端擷取音訊。根據您使用的 Pixel Streaming 基礎架構版本，請安裝以下其中一個：

Pixel Streaming 擴充功能（適用於原始 Pixel Streaming 外掛程式），或
Pixel Streaming 2 擴充功能（適用於較新的 Pixel Streaming 2 外掛程式）

下載連結與安裝步驟請見此處：Pixel Streaming Audio Capture - 擴充外掛安裝。

2. 在 `LipSyncSTSGameInstance` 中替換可捕捉的音波節點

擴充套件外掛安裝完成後：

在內容瀏覽器中，導航至 /All/Game，然後開啟 LipSyncSTSGameInstance 資源。
切換至事件圖表。
找到事件初始化，並沿著執行流程，直到找到這對節點：建立可捕捉音波 → 設定可捕捉音波。
將 建立可捕捉音波 呼叫替換為 建立像素串流可捕捉音波 或 建立像素串流 2 可捕捉音波，取決於您目標的像素串流基礎架構版本。
將其輸出連接到同一個 設定可捕捉音波 節點。

完成此步驟後，專案即可部署至 Pixel Streaming——語音辨識、LLM、TTS 及嘴型同步功能將如常運作，但音訊將改為從遠端客戶端擷取，而非本機麥克風。

使用您自己的角色

示範專案內建三個範例 MetaHuman 角色（Aera、Ada、Orlando），但您也可以匯入自己的 MetaHuman 並在示範中使用。

📺 影片教學： 將自訂 MetaHuman 角色加入示範專案

備註

Runtime MetaHuman Lip Sync 外掛程式本身支援 MetaHuman 以外的許多其他角色系統（基於 ARKit 的角色、Daz Genesis 8/9、Reallusion CC3/CC4、Mixamo、ReadyPlayerMe 等——請參閱自訂角色設定指南）。無論您正在打造遊戲 NPC、虛擬主持人、資訊站服務員，還是用於虛擬製作的數位人類，此外掛程式都能適應您的角色製作流程。

一個更簡化的示範專案，專注於嘴型同步功能本身，不包含完整的 AI 對話流程。適合只想透過各種音訊來源實際體驗嘴型同步效果的用戶。

精選影片

下載

包含內容

此示範展示基本的嘴型同步工作流程：

麥克風輸入 - 從即時音訊進行即時唇形同步
音訊檔案播放 - 從匯入的音訊檔案進行唇形同步
文字轉語音 - 由合成語音驅動的唇形同步

必要與選用插件

外掛程式	目的	必要嗎？
Runtime MetaHuman Lip Sync	唇形同步動畫	✅ 必要
Runtime Audio Importer	音訊匯入與擷取	✅ 必要
Runtime Text To Speech	本地 TTS 示範場景的語音合成	🔶 可選
Runtime AI Chatbot Integrator	外部 TTS 提供者（OpenAI、ElevenLabs）	🔶 可選

標準嘴型同步模型注意事項

若您計劃在任一示範專案中使用標準模型（而非擬真模型），則需安裝標準嘴型同步擴充外掛。請參閱標準模型擴充功能的安裝說明。

需要協助嗎？

若您在設定或執行示範專案時遇到任何問題，歡迎隨時聯繫我們：

Join our Discord

online · support

如需客製化開發需求（例如：為您的邏輯擴充示範內容、針對特定平台或角色流程進行調整），請聯絡 [email protected]。

可用的示範專案​

## 管線概覽​

影片​

快速預覽（約30秒）​

完整逐步指南​

下載​

必要與選用插件​

模組化架構​

示範專案佈局​

設定按鈕​

1. 設定語音辨識​

2. 配置 AI 聊天機器人​

3. 設定文字轉語音​

4. 設定動畫​

在編輯器中預先配置示範​

跨平台注意事項​

支援像素串流​

1. 安裝 Runtime Audio Importer 的 Pixel Streaming 擴充功能​

2. 在 LipSyncSTSGameInstance 中替換可捕捉的音波節點​

使用您自己的角色​

精選影片​

下載​

包含內容​

必要與選用插件​

標準嘴型同步模型注意事項​

需要協助嗎？​

可用的示範專案

## 管線概覽

影片

快速預覽（約30秒）

完整逐步指南

下載

必要與選用插件

模組化架構

示範專案佈局

設定按鈕

1. 設定語音辨識

2. 配置 AI 聊天機器人

3. 設定文字轉語音

4. 設定動畫

在編輯器中預先配置示範

跨平台注意事項

支援像素串流

1. 安裝 Runtime Audio Importer 的 Pixel Streaming 擴充功能

2. 在 `LipSyncSTSGameInstance` 中替換可捕捉的音波節點

使用您自己的角色

精選影片

下載

包含內容

必要與選用插件

標準嘴型同步模型注意事項

需要協助嗎？