Dự án Demo
Để giúp bạn bắt đầu nhanh chóng với Runtime MetaHuman Lip Sync, có sẵn hai dự án demo sẵn sàng sử dụng. Cả hai đều được xây dựng với Unreal Engine 5.6+, chỉ sử dụng Blueprint, và chạy đa nền tảng trên Windows, Mac, Linux, iOS, Android và các nền tảng dựa trên Android (bao gồm Meta Quest).
Các Dự án Demo Có Sẵn
- AI Conversational NPC / Interactive Avatar
- Bản demo Khớp môi Cơ bản
Một quy trình làm việc avatar hội thoại AI hoàn chỉnh kết hợp nhận dạng giọng nói, chatbot AI (LLM), chuyển văn bản thành giọng nói và phát âm thanh với đồng bộ môi thời gian thực - tất cả chạy cùng nhau trong một dự án duy nhất. Phù hợp với nhiều trường hợp sử dụng - bao gồm trò chơi, ki-ốt tương tác, sản xuất ảo, cài đặt bảo tàng, trợ lý kỹ thuật số và mô phỏng đào tạo.
Tổng quan Quy trình
🎤 Microphone → Speech Recognition → 💬 LLM Chatbot → 🔊 Text-to-Speech → 👄 Lip Sync + Playback
Video
Xem nhanh (~30 giây)
Một đoạn giới thiệu ngắn về bản demo đang hoạt động.
Hướng dẫn chi tiết
Một hướng dẫn chi tiết bao gồm thiết lập, cấu hình và toàn bộ quy trình hội thoại.
Tải xuống
Plugin Bắt buộc & Tùy chọn
Dự án demo có tính mô-đun - bạn chỉ cần các plugin cho các nhà cung cấp dịch vụ bạn muốn sử dụng.
| Plugin | Mục đích | Bắt buộc? |
|---|---|---|
| Runtime MetaHuman Lip Sync | Hoạt ảnh đồng bộ môi | ✅ Luôn luôn |
| Runtime Audio Importer | Thu & xử lý âm thanh | ✅ Luôn luôn |
| Runtime Speech Recognizer | Nhận dạng giọng nói ngoại tuyến (whisper.cpp) | ✅ Luôn luôn |
| Runtime AI Chatbot Integrator | LLM bên ngoài (OpenAI, Claude, DeepSeek, Gemini, Grok, Ollama) và/hoặc TTS bên ngoài (OpenAI, ElevenLabs) | 🔶 Tùy chọn |
| Runtime Local LLM | Suy luận LLM cục bộ qua llama.cpp (Llama, Mistral, Gemma, v.v., các mô hình GGUF) | 🔶 Tùy chọn |
| Runtime Text To Speech | TTS cục bộ qua Piper và Kokoro | 🔶 Tùy chọn |
Mặc dù mỗi plugin ở trên là tùy chọn riêng lẻ, bạn cần ít nhất một nhà cung cấp LLM và ít nhất một nhà cung cấp TTS để bản demo hoạt động. Bạn có thể kết hợp và sắp xếp tùy ý (ví dụ: LLM cục bộ + TTS ElevenLabs, hoặc LLM OpenAI + TTS cục bộ).
Kiến trúc Mô-đun
Trong thư mục Content, bạn sẽ tìm thấy một thư mục Modules chứa ba thư mục con:
Content/
└── Modules/
├── RuntimeAIChatbotIntegrator/ ← External LLMs and/or external TTS
├── RuntimeLocalLLM/ ← Local LLM via llama.cpp
└── RuntimeTextToSpeech/ ← Local TTS via Piper/Kokoro
Nếu bạn không mua một (hoặc nhiều) plugin tùy chọn, chỉ cần xóa (các) thư mục tương ứng. Các tài sản cơ bản của dự án demo (game instance, widget, v.v.) không tham chiếu trực tiếp đến các module này, vì vậy việc xóa chúng sẽ không gây ra lỗi tham chiếu tài sản. Giao diện cấu hình sẽ tự động ẩn bất kỳ nhà cung cấp nào có thư mục bị thiếu.
Tính mô-đun này chỉ áp dụng cho các nhà cung cấp LLM và TTS. Speech Recognition (Runtime Speech Recognizer) và Lip Sync (Runtime MetaHuman Lip Sync) là một phần của dự án demo cơ bản và luôn được yêu cầu.

Khi khởi chạy lần đầu, Unreal có thể hỏi có nên vô hiệu hóa bất kỳ plugin tùy chọn nào bị thiếu hay không - hãy nhấp Yes. Đảm bảo bạn cũng đã xóa thư mục Content/Modules/ tương ứng (xem ở trên).
Bố cục Dự án Demo
Giao diện người dùng hiển thị bên dưới được xây dựng hoàn toàn bằng UMG (Unreal Motion Graphics) và chỉ nhằm mục đích trình diễn quy trình - nhận dạng giọng nói → LLM → TTS → khớp môi. Bạn có thể tự do định dạng lại hoặc thay thế nó để phù hợp với thiết kế trực quan, sơ đồ điều khiển hoặc nền tảng (VR/AR, di động, console, kiosk, v.v.) của dự án. Nếu một số widget không cần thiết trong trường hợp sử dụng của bạn, bạn cũng có thể chỉ cần ẩn chúng (ví dụ: đặt chế độ hiển thị của chúng thành Collapsed hoặc Hidden).

| Khu vực | Nội dung |
|---|---|
| Trung tâm | Nhân vật MetaHuman. |
| Bên trái | Bốn nút cấu hình (Speech Recognition, AI Chatbot, Text To Speech, Animations), được mô tả chi tiết bên dưới. |
| Dưới cùng trung tâm | Một nút Start Recording. Nhấp vào nó để bắt đầu một cuộc trò chuyện bằng giọng nói: micrô của bạn được thu âm, phiên âm, gửi đến LLM, phản hồi được tổng hợp qua TTS và phát lại kèm khớp môi, hoàn toàn rảnh tay. |
| Giữa bên phải | Một widget lịch sử hội thoại hiển thị toàn bộ quá trình qua lại giữa bạn và AI (cả tin nhắn của người dùng và trợ lý). Nó cũng bao gồm một trường nhập văn bản, để bạn có thể nhập tin nhắn trực tiếp mà không cần sử dụng tính năng nhận dạng giọng nói, hữu ích cho việc kiểm tra, hỗ trợ tiếp cận hoặc khi không có micrô. |
Bạn có thể tự do kết hợp cả hai chế độ nhập trong cùng một phiên - nói một số tin nhắn, nhập những tin nhắn khác.
Các Nút Cấu hình
Bốn nút cấu hình ở bên trái mở các bảng chuyên dụng cho từng phần của quy trình:
1. Cấu hình Nhận dạng Giọng nói
Cấu hình cách giọng nói của người dùng được thu và phiên âm:
- Chọn ngôn ngữ
- Điều chỉnh các tham số nhận dạng giọng nói (cài đặt mô hình Whisper)
- Cấu hình AEC (Khử tiếng vang âm thanh)
- Cấu hình VAD (Phát hiện hoạt động giọng nói)

2. Cấu hình AI Chatbot
Chọn nhà cung cấp LLM của bạn và cấu hình nó:
- Chọn nhà cung cấp (Runtime AI Chatbot Integrator hoặc Runtime Local LLM)
- Đối với nhà cung cấp bên ngoài: token xác thực, tên mô hình, v.v.
- Đối với LLM cục bộ: chọn một mô hình GGUF, đặt kích thước ngữ cảnh và các tham số suy luận khác. Bạn cũng có thể tải xuống mô hình GGUF của riêng mình trong thời gian chạy trực tiếp từ bản demo (ví dụ: qua URL) và sử dụng nó ngay lập tức mà không cần xây dựng lại dự án.
Hộp tổ hợp nhà cung cấp chỉ hiển thị các nhà cung cấp có thư mục module plugin hiện diện trong Content/Modules/.


3. Cấu hình Chuyển văn bản thành giọng nói
Chọn nhà cung cấp TTS của bạn và cấu hình giọng nói/mô hình:
- Chọn nhà cung cấp (Runtime AI Chatbot Integrator cho OpenAI/ElevenLabs, hoặc Runtime Text To Speech cho Piper/Kokoro cục bộ)
- Chọn giọng nói/mô hình
- Điều chỉnh các tham số cụ thể của nhà cung cấp


4. Cấu hình Hoạt ảnh
Kiểm soát hình ảnh trực quan của hình đại diện AI của bạn:
- Chọn giữa 3 nhân vật MetaHuman đã được tải sẵn (Aera, Ada, Orlando)
- Chọn mô hình khớp môi (Standard hoặc Realistic)
- Chọn loại mô hình khớp môi - Highly Optimized, Semi-Optimized, hoặc Original (xem Loại Mô hình)
- Điều chỉnh Kích thước Khối Xử lý - kiểm soát tần suất chạy suy luận khớp môi (xem Kích thước Khối Xử lý)
- Chọn một hoạt ảnh chờ để phát trên MetaHuman trong khi trò chuyện

Cấu hình trước Bản demo trong Trình chỉnh sửa
Khi làm việc với phiên bản nguồn, bạn có thể điền trước các giá trị mặc định trực tiếp trong trình chỉnh sửa để không cần phải nhập lại giá trị mỗi lần chạy:
| Nội dung | Vị trí |
|---|---|
| Cài đặt chung (mô hình khớp môi, hoạt ảnh chờ, lớp nhân vật, nhận dạng giọng nói, v.v.) | Content/LipSyncSTSGameInstance |
| Cài đặt LLM bên ngoài / TTS bên ngoài (Runtime AI Chatbot Integrator) | Content/Modules/RuntimeAIChatbotIntegrator/RuntimeAIChatbotIntegrator_Provider |
| Cài đặt LLM cục bộ (Runtime Local LLM) | Content/Modules/RuntimeLocalLLM/RuntimeLocalLLM_Provider |
| Cài đặt TTS cục bộ (Runtime Text To Speech) | Content/Modules/RuntimeTextToSpeech/RuntimeTextToSpeech_Provider |
Ghi chú về Đa nền tảng
Tất cả các plugin được sử dụng bởi bản demo đều hỗ trợ Windows, Mac, Linux, iOS, Android và các nền tảng dựa trên Android (bao gồm Meta Quest), vì vậy dự án demo cũng hoạt động trên tất cả các nền tảng này. Điều này làm cho nó phù hợp để triển khai trên nhiều môi trường khác nhau - từ trò chơi và kiosk máy tính để bàn đến ứng dụng di động, tai nghe VR độc lập và thiết lập sản xuất ảo tại trường quay.
Đối với các thiết bị yếu hơn (di động, VR độc lập), bạn có thể muốn:
- Sử dụng mô hình khớp môi Standard thay vì Realistic - xem So sánh mô hình
- Chuyển sang loại mô hình Highly Optimized
- Tăng Kích thước Khối Xử lý để giảm tải CPU
- Chọn các mô hình LLM / TTS nhỏ hơn
Xem Cấu hình theo Nền tảng Cụ thể để biết các bước thiết lập bổ sung trên Android, iOS, Mac và Linux.
Mang Nhân vật của Riêng Bạn
Dự án demo đi kèm với ba nhân vật MetaHuman mẫu (Aera, Ada, Orlando), nhưng bạn có thể nhập MetaHuman của riêng mình và sử dụng nó trong bản demo.
📺 Hướng dẫn bằng video: Thêm Nhân vật MetaHuman Tùy chỉnh vào Dự án Demo
Bản thân plugin Runtime MetaHuman Lip Sync hỗ trợ nhiều hệ thống nhân vật khác ngoài MetaHumans (nhân vật dựa trên ARKit, Daz Genesis 8/9, Reallusion CC3/CC4, Mixamo, ReadyPlayerMe, v.v. - xem Hướng dẫn Thiết lập Nhân vật Tùy chỉnh). Cho dù bạn đang xây dựng một NPC trong trò chơi, một người thuyết trình ảo, một nhân viên kiosk hay một con người kỹ thuật số cho sản xuất ảo, plugin sẽ thích ứng với quy trình nhân vật của bạn.
Một dự án demo đơn giản hơn, tập trung hoàn toàn vào tính năng khớp môi, không có quy trình hội thoại AI đầy đủ. Phù hợp nếu bạn chỉ muốn xem khớp môi hoạt động với nhiều nguồn âm thanh khác nhau.
Video Nổi bật
Tải xuống
Nội dung Bao gồm
Bản demo này giới thiệu các quy trình khớp môi cơ bản:
- Đầu vào micrô - khớp môi thời gian thực từ âm thanh trực tiếp
- Phát lại tệp âm thanh - khớp môi từ các tệp âm thanh đã nhập
- Chuyển văn bản thành giọng nói - khớp môi được điều khiển bởi giọng nói tổng hợp
Plugin Bắt buộc & Tùy chọn
| Plugin | Mục đích | Bắt buộc? |
|---|---|---|
| Runtime MetaHuman Lip Sync | Hoạt ảnh khớp môi | ✅ Bắt buộc |
| Runtime Audio Importer | Nhập & thu âm thanh | ✅ Bắt buộc |
| Runtime Text To Speech | TTS cục bộ cho cảnh demo TTS | 🔶 Tùy chọn |
| Runtime AI Chatbot Integrator | Nhà cung cấp TTS bên ngoài (OpenAI, ElevenLabs) | 🔶 Tùy chọn |
Ghi chú cho Mô hình Khớp môi Standard
Nếu bạn định sử dụng Mô hình Standard (thay vì Realistic) trong một trong hai dự án demo, bạn sẽ cần cài đặt plugin Standard Lip Sync Extension. Xem Tiện ích mở rộng Mô hình Standard để biết hướng dẫn cài đặt.
Cần Trợ giúp?
Nếu bạn gặp bất kỳ sự cố nào khi thiết lập hoặc chạy các dự án demo, vui lòng liên hệ:
Đối với các yêu cầu phát triển tùy chỉnh (ví dụ: mở rộng bản demo với logic riêng của bạn, điều chỉnh nó cho một nền tảng hoặc quy trình nhân vật cụ thể), hãy liên hệ [email protected].