Dự án Demo

Để giúp bạn bắt đầu nhanh chóng với Runtime MetaHuman Lip Sync, có sẵn hai dự án demo sẵn sàng sử dụng. Cả hai đều được xây dựng với Unreal Engine 5.6+, chỉ sử dụng Blueprint, và chạy đa nền tảng trên Windows, Mac, Linux, iOS, Android và các nền tảng dựa trên Android (bao gồm Meta Quest).

Các Dự án Demo Có Sẵn

AI Conversational NPC / Interactive Avatar
Bản demo Khớp môi Cơ bản

Một quy trình làm việc avatar hội thoại AI hoàn chỉnh kết hợp nhận dạng giọng nói, chatbot AI (LLM), chuyển văn bản thành giọng nói và phát âm thanh với đồng bộ môi thời gian thực - tất cả chạy cùng nhau trong một dự án duy nhất. Phù hợp với nhiều trường hợp sử dụng - bao gồm trò chơi, ki-ốt tương tác, sản xuất ảo, cài đặt bảo tàng, trợ lý kỹ thuật số và mô phỏng đào tạo.

Tổng quan Quy trình

🎤 Microphone → Speech Recognition → 💬 LLM Chatbot → 🔊 Text-to-Speech → 👄 Lip Sync + Playback

Video

Xem nhanh (~30 giây)

Một đoạn giới thiệu ngắn về bản demo đang hoạt động.

Hướng dẫn chi tiết

Một hướng dẫn chi tiết bao gồm thiết lập, cấu hình và toàn bộ quy trình hội thoại.

Tải xuống

Plugin Bắt buộc & Tùy chọn

Dự án demo có tính mô-đun - bạn chỉ cần các plugin cho các nhà cung cấp dịch vụ bạn muốn sử dụng.

Plugin	Mục đích	Bắt buộc?
Runtime MetaHuman Lip Sync	Hoạt ảnh đồng bộ môi	✅ Luôn luôn
Runtime Audio Importer	Thu & xử lý âm thanh	✅ Luôn luôn
Runtime Speech Recognizer	Nhận dạng giọng nói ngoại tuyến (whisper.cpp)	✅ Luôn luôn
Runtime AI Chatbot Integrator	LLM bên ngoài (OpenAI, Claude, DeepSeek, Gemini, Grok, Ollama) và/hoặc TTS bên ngoài (OpenAI, ElevenLabs)	🔶 Tùy chọn
Runtime Local LLM	Suy luận LLM cục bộ qua llama.cpp (Llama, Mistral, Gemma, v.v., các mô hình GGUF)	🔶 Tùy chọn
Runtime Text To Speech	TTS cục bộ qua Piper và Kokoro	🔶 Tùy chọn

Plugin tùy chọn - yêu cầu nhà cung cấp

Mặc dù mỗi plugin ở trên là tùy chọn riêng lẻ, bạn cần ít nhất một nhà cung cấp LLM và ít nhất một nhà cung cấp TTS để bản demo hoạt động. Bạn có thể kết hợp và sắp xếp tùy ý (ví dụ: LLM cục bộ + TTS ElevenLabs, hoặc LLM OpenAI + TTS cục bộ).

Kiến trúc Mô-đun

Trong thư mục Content, bạn sẽ tìm thấy một thư mục Modules chứa ba thư mục con:

Content/
└── Modules/
    ├── RuntimeAIChatbotIntegrator/   ← External LLMs and/or external TTS
    ├── RuntimeLocalLLM/              ← Local LLM via llama.cpp
    └── RuntimeTextToSpeech/          ← Local TTS via Piper/Kokoro

Nếu bạn không mua một (hoặc nhiều) plugin tùy chọn, chỉ cần xóa (các) thư mục tương ứng. Các tài sản cơ bản của dự án demo (game instance, widget, v.v.) không tham chiếu trực tiếp đến các module này, vì vậy việc xóa chúng sẽ không gây ra lỗi tham chiếu tài sản. Giao diện cấu hình sẽ tự động ẩn bất kỳ nhà cung cấp nào có thư mục bị thiếu.

ghi chú

Tính mô-đun này chỉ áp dụng cho các nhà cung cấp LLM và TTS. Speech Recognition (Runtime Speech Recognizer) và Lip Sync (Runtime MetaHuman Lip Sync) là một phần của dự án demo cơ bản và luôn được yêu cầu.

Cấu trúc thư mục Modules

cảnh báo

Khi khởi chạy lần đầu, Unreal có thể hỏi có nên vô hiệu hóa bất kỳ plugin tùy chọn nào bị thiếu hay không - hãy nhấp Yes. Đảm bảo bạn cũng đã xóa thư mục Content/Modules/ tương ứng (xem ở trên).

Bố cục Dự án Demo

Giao diện người dùng chỉ dành cho mục đích trình diễn

Giao diện người dùng hiển thị bên dưới được xây dựng hoàn toàn bằng UMG (Unreal Motion Graphics) và chỉ nhằm mục đích trình diễn quy trình - nhận dạng giọng nói → LLM → TTS → khớp môi. Bạn có thể tự do định dạng lại hoặc thay thế nó để phù hợp với thiết kế trực quan, sơ đồ điều khiển hoặc nền tảng (VR/AR, di động, console, kiosk, v.v.) của dự án. Nếu một số widget không cần thiết trong trường hợp sử dụng của bạn, bạn cũng có thể chỉ cần ẩn chúng (ví dụ: đặt chế độ hiển thị của chúng thành Collapsed hoặc Hidden).

Tổng quan có chú thích về màn hình chính của dự án demo

Khu vực	Nội dung
Trung tâm	Nhân vật MetaHuman.
Bên trái	Bốn nút cấu hình (Speech Recognition, AI Chatbot, Text To Speech, Animations), được mô tả chi tiết bên dưới.
Dưới cùng trung tâm	Một nút Start Recording. Nhấp vào nó để bắt đầu một cuộc trò chuyện bằng giọng nói: micrô của bạn được thu âm, phiên âm, gửi đến LLM, phản hồi được tổng hợp qua TTS và phát lại kèm khớp môi, hoàn toàn rảnh tay.
Giữa bên phải	Một widget lịch sử hội thoại hiển thị toàn bộ quá trình qua lại giữa bạn và AI (cả tin nhắn của người dùng và trợ lý). Nó cũng bao gồm một trường nhập văn bản, để bạn có thể nhập tin nhắn trực tiếp mà không cần sử dụng tính năng nhận dạng giọng nói, hữu ích cho việc kiểm tra, hỗ trợ tiếp cận hoặc khi không có micrô.

mẹo

Bạn có thể tự do kết hợp cả hai chế độ nhập trong cùng một phiên - nói một số tin nhắn, nhập những tin nhắn khác.

Các Nút Cấu hình

Bốn nút cấu hình ở bên trái mở các bảng chuyên dụng cho từng phần của quy trình:

1. Cấu hình Nhận dạng Giọng nói

Cấu hình cách giọng nói của người dùng được thu và phiên âm:

Chọn ngôn ngữ
Điều chỉnh các tham số nhận dạng giọng nói (cài đặt mô hình Whisper)
Cấu hình AEC (Khử tiếng vang âm thanh)
Cấu hình VAD (Phát hiện hoạt động giọng nói)

Màn hình cấu hình nhận dạng giọng nói

2. Cấu hình AI Chatbot

Chọn nhà cung cấp LLM của bạn và cấu hình nó:

Chọn nhà cung cấp (Runtime AI Chatbot Integrator hoặc Runtime Local LLM)
Đối với nhà cung cấp bên ngoài: token xác thực, tên mô hình, v.v.
Đối với LLM cục bộ: chọn một mô hình GGUF, đặt kích thước ngữ cảnh và các tham số suy luận khác. Bạn cũng có thể tải xuống mô hình GGUF của riêng mình trong thời gian chạy trực tiếp từ bản demo (ví dụ: qua URL) và sử dụng nó ngay lập tức mà không cần xây dựng lại dự án.

mẹo

Hộp tổ hợp nhà cung cấp chỉ hiển thị các nhà cung cấp có thư mục module plugin hiện diện trong Content/Modules/.

Cấu hình AI chatbot - Runtime AI Chatbot Integrator (LLM bên ngoài)

Cấu hình AI chatbot - Runtime Local LLM (GGUF cục bộ)

3. Cấu hình Chuyển văn bản thành giọng nói

Chọn nhà cung cấp TTS của bạn và cấu hình giọng nói/mô hình:

Chọn nhà cung cấp (Runtime AI Chatbot Integrator cho OpenAI/ElevenLabs, hoặc Runtime Text To Speech cho Piper/Kokoro cục bộ)
Chọn giọng nói/mô hình
Điều chỉnh các tham số cụ thể của nhà cung cấp

Cấu hình TTS - Runtime AI Chatbot Integrator (TTS bên ngoài)

Cấu hình TTS - Runtime Local Text To Speech (Piper/Kokoro cục bộ)

4. Cấu hình Hoạt ảnh

Kiểm soát hình ảnh trực quan của hình đại diện AI của bạn:

Chọn giữa 3 nhân vật MetaHuman đã được tải sẵn (Aera, Ada, Orlando)
Chọn mô hình khớp môi (Standard hoặc Realistic)
Chọn loại mô hình khớp môi - Highly Optimized, Semi-Optimized, hoặc Original (xem Loại Mô hình)
Điều chỉnh Kích thước Khối Xử lý - kiểm soát tần suất chạy suy luận khớp môi (xem Kích thước Khối Xử lý)
Chọn một hoạt ảnh chờ để phát trên MetaHuman trong khi trò chuyện

Màn hình cấu hình hoạt ảnh

Cấu hình trước Bản demo trong Trình chỉnh sửa

Khi làm việc với phiên bản nguồn, bạn có thể điền trước các giá trị mặc định trực tiếp trong trình chỉnh sửa để không cần phải nhập lại giá trị mỗi lần chạy:

Nội dung	Vị trí
Cài đặt chung (mô hình khớp môi, hoạt ảnh chờ, lớp nhân vật, nhận dạng giọng nói, v.v.)	`Content/LipSyncSTSGameInstance`
Cài đặt LLM bên ngoài / TTS bên ngoài (Runtime AI Chatbot Integrator)	`Content/Modules/RuntimeAIChatbotIntegrator/RuntimeAIChatbotIntegrator_Provider`
Cài đặt LLM cục bộ (Runtime Local LLM)	`Content/Modules/RuntimeLocalLLM/RuntimeLocalLLM_Provider`
Cài đặt TTS cục bộ (Runtime Text To Speech)	`Content/Modules/RuntimeTextToSpeech/RuntimeTextToSpeech_Provider`

Ghi chú về Đa nền tảng

Tất cả các plugin được sử dụng bởi bản demo đều hỗ trợ Windows, Mac, Linux, iOS, Android và các nền tảng dựa trên Android (bao gồm Meta Quest), vì vậy dự án demo cũng hoạt động trên tất cả các nền tảng này. Điều này làm cho nó phù hợp để triển khai trên nhiều môi trường khác nhau - từ trò chơi và kiosk máy tính để bàn đến ứng dụng di động, tai nghe VR độc lập và thiết lập sản xuất ảo tại trường quay.

Đối với các thiết bị yếu hơn (di động, VR độc lập), bạn có thể muốn:

Sử dụng mô hình khớp môi Standard thay vì Realistic - xem So sánh mô hình
Chuyển sang loại mô hình Highly Optimized
Tăng Kích thước Khối Xử lý để giảm tải CPU
Chọn các mô hình LLM / TTS nhỏ hơn

Xem Cấu hình theo Nền tảng Cụ thể để biết các bước thiết lập bổ sung trên Android, iOS, Mac và Linux.

Mang Nhân vật của Riêng Bạn

Dự án demo đi kèm với ba nhân vật MetaHuman mẫu (Aera, Ada, Orlando), nhưng bạn có thể nhập MetaHuman của riêng mình và sử dụng nó trong bản demo.

📺 Hướng dẫn bằng video: Thêm Nhân vật MetaHuman Tùy chỉnh vào Dự án Demo

ghi chú

Bản thân plugin Runtime MetaHuman Lip Sync hỗ trợ nhiều hệ thống nhân vật khác ngoài MetaHumans (nhân vật dựa trên ARKit, Daz Genesis 8/9, Reallusion CC3/CC4, Mixamo, ReadyPlayerMe, v.v. - xem Hướng dẫn Thiết lập Nhân vật Tùy chỉnh). Cho dù bạn đang xây dựng một NPC trong trò chơi, một người thuyết trình ảo, một nhân viên kiosk hay một con người kỹ thuật số cho sản xuất ảo, plugin sẽ thích ứng với quy trình nhân vật của bạn.

Một dự án demo đơn giản hơn, tập trung hoàn toàn vào tính năng khớp môi, không có quy trình hội thoại AI đầy đủ. Phù hợp nếu bạn chỉ muốn xem khớp môi hoạt động với nhiều nguồn âm thanh khác nhau.

Video Nổi bật

Tải xuống

Nội dung Bao gồm

Bản demo này giới thiệu các quy trình khớp môi cơ bản:

Đầu vào micrô - khớp môi thời gian thực từ âm thanh trực tiếp
Phát lại tệp âm thanh - khớp môi từ các tệp âm thanh đã nhập
Chuyển văn bản thành giọng nói - khớp môi được điều khiển bởi giọng nói tổng hợp

Plugin Bắt buộc & Tùy chọn

Plugin	Mục đích	Bắt buộc?
Runtime MetaHuman Lip Sync	Hoạt ảnh khớp môi	✅ Bắt buộc
Runtime Audio Importer	Nhập & thu âm thanh	✅ Bắt buộc
Runtime Text To Speech	TTS cục bộ cho cảnh demo TTS	🔶 Tùy chọn
Runtime AI Chatbot Integrator	Nhà cung cấp TTS bên ngoài (OpenAI, ElevenLabs)	🔶 Tùy chọn

Ghi chú cho Mô hình Khớp môi Standard

Nếu bạn định sử dụng Mô hình Standard (thay vì Realistic) trong một trong hai dự án demo, bạn sẽ cần cài đặt plugin Standard Lip Sync Extension. Xem Tiện ích mở rộng Mô hình Standard để biết hướng dẫn cài đặt.

Cần Trợ giúp?

Nếu bạn gặp bất kỳ sự cố nào khi thiết lập hoặc chạy các dự án demo, vui lòng liên hệ:

Join our Discord

online · support

Đối với các yêu cầu phát triển tùy chỉnh (ví dụ: mở rộng bản demo với logic riêng của bạn, điều chỉnh nó cho một nền tảng hoặc quy trình nhân vật cụ thể), hãy liên hệ [email protected].

Các Dự án Demo Có Sẵn​

Tổng quan Quy trình​

Video​

Xem nhanh (~30 giây)​

Hướng dẫn chi tiết​

Tải xuống​

Plugin Bắt buộc & Tùy chọn​

Kiến trúc Mô-đun​

Bố cục Dự án Demo​

Các Nút Cấu hình​

1. Cấu hình Nhận dạng Giọng nói​

2. Cấu hình AI Chatbot​

3. Cấu hình Chuyển văn bản thành giọng nói​

4. Cấu hình Hoạt ảnh​

Cấu hình trước Bản demo trong Trình chỉnh sửa​

Ghi chú về Đa nền tảng​

Mang Nhân vật của Riêng Bạn​

Video Nổi bật​

Tải xuống​

Nội dung Bao gồm​

Plugin Bắt buộc & Tùy chọn​

Ghi chú cho Mô hình Khớp môi Standard​

Cần Trợ giúp?​

Các Dự án Demo Có Sẵn

Tổng quan Quy trình

Video

Xem nhanh (~30 giây)

Hướng dẫn chi tiết

Tải xuống

Plugin Bắt buộc & Tùy chọn

Kiến trúc Mô-đun

Bố cục Dự án Demo

Các Nút Cấu hình

1. Cấu hình Nhận dạng Giọng nói

2. Cấu hình AI Chatbot

3. Cấu hình Chuyển văn bản thành giọng nói

4. Cấu hình Hoạt ảnh

Cấu hình trước Bản demo trong Trình chỉnh sửa

Ghi chú về Đa nền tảng

Mang Nhân vật của Riêng Bạn

Video Nổi bật

Tải xuống

Nội dung Bao gồm

Plugin Bắt buộc & Tùy chọn

Ghi chú cho Mô hình Khớp môi Standard

Cần Trợ giúp?