Chuyển tới nội dung chính

Dự án Demo

Để giúp bạn bắt đầu nhanh chóng với Runtime MetaHuman Lip Sync, có sẵn hai dự án demo sẵn sàng sử dụng. Cả hai đều được xây dựng với Unreal Engine 5.6+, chỉ sử dụng Blueprint, và chạy đa nền tảng trên Windows, Mac, Linux, iOS, Android và các nền tảng dựa trên Android (bao gồm Meta Quest).

Các Dự án Demo Có Sẵn

Một quy trình làm việc avatar hội thoại AI hoàn chỉnh kết hợp nhận dạng giọng nói, chatbot AI (LLM), chuyển văn bản thành giọng nói và phát âm thanh với đồng bộ môi thời gian thực - tất cả chạy cùng nhau trong một dự án duy nhất. Phù hợp với nhiều trường hợp sử dụng - bao gồm trò chơi, ki-ốt tương tác, sản xuất ảo, cài đặt bảo tàng, trợ lý kỹ thuật sốmô phỏng đào tạo.

Tổng quan Quy trình

🎤 Microphone → Speech Recognition → 💬 LLM Chatbot → 🔊 Text-to-Speech → 👄 Lip Sync + Playback

Video

Xem nhanh (~30 giây)

Một đoạn giới thiệu ngắn về bản demo đang hoạt động.

Hướng dẫn chi tiết

Một hướng dẫn chi tiết bao gồm thiết lập, cấu hình và toàn bộ quy trình hội thoại.

Tải xuống

Plugin Bắt buộc & Tùy chọn

Dự án demo có tính mô-đun - bạn chỉ cần các plugin cho các nhà cung cấp dịch vụ bạn muốn sử dụng.

PluginMục đíchBắt buộc?
Runtime MetaHuman Lip SyncHoạt ảnh đồng bộ môi✅ Luôn luôn
Runtime Audio ImporterThu & xử lý âm thanh✅ Luôn luôn
Runtime Speech RecognizerNhận dạng giọng nói ngoại tuyến (whisper.cpp)✅ Luôn luôn
Runtime AI Chatbot IntegratorLLM bên ngoài (OpenAI, Claude, DeepSeek, Gemini, Grok, Ollama) và/hoặc TTS bên ngoài (OpenAI, ElevenLabs)🔶 Tùy chọn
Runtime Local LLMSuy luận LLM cục bộ qua llama.cpp (Llama, Mistral, Gemma, v.v., các mô hình GGUF)🔶 Tùy chọn
Runtime Text To SpeechTTS cục bộ qua Piper và Kokoro🔶 Tùy chọn
Plugin tùy chọn - yêu cầu nhà cung cấp

Mặc dù mỗi plugin ở trên là tùy chọn riêng lẻ, bạn cần ít nhất một nhà cung cấp LLMít nhất một nhà cung cấp TTS để bản demo hoạt động. Bạn có thể kết hợp và sắp xếp tùy ý (ví dụ: LLM cục bộ + TTS ElevenLabs, hoặc LLM OpenAI + TTS cục bộ).

Kiến trúc Mô-đun

Trong thư mục Content, bạn sẽ tìm thấy một thư mục Modules chứa ba thư mục con:

Content/
└── Modules/
├── RuntimeAIChatbotIntegrator/ ← External LLMs and/or external TTS
├── RuntimeLocalLLM/ ← Local LLM via llama.cpp
└── RuntimeTextToSpeech/ ← Local TTS via Piper/Kokoro

Nếu bạn không mua một (hoặc nhiều) plugin tùy chọn, chỉ cần xóa (các) thư mục tương ứng. Các tài sản cơ bản của dự án demo (game instance, widget, v.v.) không tham chiếu trực tiếp đến các module này, vì vậy việc xóa chúng sẽ không gây ra lỗi tham chiếu tài sản. Giao diện cấu hình sẽ tự động ẩn bất kỳ nhà cung cấp nào có thư mục bị thiếu.

ghi chú

Tính mô-đun này chỉ áp dụng cho các nhà cung cấp LLMTTS. Speech Recognition (Runtime Speech Recognizer) và Lip Sync (Runtime MetaHuman Lip Sync) là một phần của dự án demo cơ bản và luôn được yêu cầu.

Cấu trúc thư mục Modules

cảnh báo

Khi khởi chạy lần đầu, Unreal có thể hỏi có nên vô hiệu hóa bất kỳ plugin tùy chọn nào bị thiếu hay không - hãy nhấp Yes. Đảm bảo bạn cũng đã xóa thư mục Content/Modules/ tương ứng (xem ở trên).

Bố cục Dự án Demo

Giao diện người dùng chỉ dành cho mục đích trình diễn

Giao diện người dùng hiển thị bên dưới được xây dựng hoàn toàn bằng UMG (Unreal Motion Graphics) và chỉ nhằm mục đích trình diễn quy trình - nhận dạng giọng nói → LLM → TTS → khớp môi. Bạn có thể tự do định dạng lại hoặc thay thế nó để phù hợp với thiết kế trực quan, sơ đồ điều khiển hoặc nền tảng (VR/AR, di động, console, kiosk, v.v.) của dự án. Nếu một số widget không cần thiết trong trường hợp sử dụng của bạn, bạn cũng có thể chỉ cần ẩn chúng (ví dụ: đặt chế độ hiển thị của chúng thành Collapsed hoặc Hidden).

Tổng quan có chú thích về màn hình chính của dự án demo

Khu vựcNội dung
Trung tâmNhân vật MetaHuman.
Bên tráiBốn nút cấu hình (Speech Recognition, AI Chatbot, Text To Speech, Animations), được mô tả chi tiết bên dưới.
Dưới cùng trung tâmMột nút Start Recording. Nhấp vào nó để bắt đầu một cuộc trò chuyện bằng giọng nói: micrô của bạn được thu âm, phiên âm, gửi đến LLM, phản hồi được tổng hợp qua TTS và phát lại kèm khớp môi, hoàn toàn rảnh tay.
Giữa bên phảiMột widget lịch sử hội thoại hiển thị toàn bộ quá trình qua lại giữa bạn và AI (cả tin nhắn của người dùng và trợ lý). Nó cũng bao gồm một trường nhập văn bản, để bạn có thể nhập tin nhắn trực tiếp mà không cần sử dụng tính năng nhận dạng giọng nói, hữu ích cho việc kiểm tra, hỗ trợ tiếp cận hoặc khi không có micrô.
mẹo

Bạn có thể tự do kết hợp cả hai chế độ nhập trong cùng một phiên - nói một số tin nhắn, nhập những tin nhắn khác.

Các Nút Cấu hình

Bốn nút cấu hình ở bên trái mở các bảng chuyên dụng cho từng phần của quy trình:

1. Cấu hình Nhận dạng Giọng nói

Cấu hình cách giọng nói của người dùng được thu và phiên âm:

  • Chọn ngôn ngữ
  • Điều chỉnh các tham số nhận dạng giọng nói (cài đặt mô hình Whisper)
  • Cấu hình AEC (Khử tiếng vang âm thanh)
  • Cấu hình VAD (Phát hiện hoạt động giọng nói)

Màn hình cấu hình nhận dạng giọng nói

2. Cấu hình AI Chatbot

Chọn nhà cung cấp LLM của bạn và cấu hình nó:

  • Chọn nhà cung cấp (Runtime AI Chatbot Integrator hoặc Runtime Local LLM)
  • Đối với nhà cung cấp bên ngoài: token xác thực, tên mô hình, v.v.
  • Đối với LLM cục bộ: chọn một mô hình GGUF, đặt kích thước ngữ cảnh và các tham số suy luận khác. Bạn cũng có thể tải xuống mô hình GGUF của riêng mình trong thời gian chạy trực tiếp từ bản demo (ví dụ: qua URL) và sử dụng nó ngay lập tức mà không cần xây dựng lại dự án.
mẹo

Hộp tổ hợp nhà cung cấp chỉ hiển thị các nhà cung cấp có thư mục module plugin hiện diện trong Content/Modules/.

Cấu hình AI chatbot - Runtime AI Chatbot Integrator (LLM bên ngoài)

Cấu hình AI chatbot - Runtime Local LLM (GGUF cục bộ)

3. Cấu hình Chuyển văn bản thành giọng nói

Chọn nhà cung cấp TTS của bạn và cấu hình giọng nói/mô hình:

  • Chọn nhà cung cấp (Runtime AI Chatbot Integrator cho OpenAI/ElevenLabs, hoặc Runtime Text To Speech cho Piper/Kokoro cục bộ)
  • Chọn giọng nói/mô hình
  • Điều chỉnh các tham số cụ thể của nhà cung cấp

Cấu hình TTS - Runtime AI Chatbot Integrator (TTS bên ngoài)

Cấu hình TTS - Runtime Local Text To Speech (Piper/Kokoro cục bộ)

4. Cấu hình Hoạt ảnh

Kiểm soát hình ảnh trực quan của hình đại diện AI của bạn:

  • Chọn giữa 3 nhân vật MetaHuman đã được tải sẵn (Aera, Ada, Orlando)
  • Chọn mô hình khớp môi (Standard hoặc Realistic)
  • Chọn loại mô hình khớp môi - Highly Optimized, Semi-Optimized, hoặc Original (xem Loại Mô hình)
  • Điều chỉnh Kích thước Khối Xử lý - kiểm soát tần suất chạy suy luận khớp môi (xem Kích thước Khối Xử lý)
  • Chọn một hoạt ảnh chờ để phát trên MetaHuman trong khi trò chuyện

Màn hình cấu hình hoạt ảnh

Cấu hình trước Bản demo trong Trình chỉnh sửa

Khi làm việc với phiên bản nguồn, bạn có thể điền trước các giá trị mặc định trực tiếp trong trình chỉnh sửa để không cần phải nhập lại giá trị mỗi lần chạy:

Nội dungVị trí
Cài đặt chung (mô hình khớp môi, hoạt ảnh chờ, lớp nhân vật, nhận dạng giọng nói, v.v.)Content/LipSyncSTSGameInstance
Cài đặt LLM bên ngoài / TTS bên ngoài (Runtime AI Chatbot Integrator)Content/Modules/RuntimeAIChatbotIntegrator/RuntimeAIChatbotIntegrator_Provider
Cài đặt LLM cục bộ (Runtime Local LLM)Content/Modules/RuntimeLocalLLM/RuntimeLocalLLM_Provider
Cài đặt TTS cục bộ (Runtime Text To Speech)Content/Modules/RuntimeTextToSpeech/RuntimeTextToSpeech_Provider

Ghi chú về Đa nền tảng

Tất cả các plugin được sử dụng bởi bản demo đều hỗ trợ Windows, Mac, Linux, iOS, Android và các nền tảng dựa trên Android (bao gồm Meta Quest), vì vậy dự án demo cũng hoạt động trên tất cả các nền tảng này. Điều này làm cho nó phù hợp để triển khai trên nhiều môi trường khác nhau - từ trò chơi và kiosk máy tính để bàn đến ứng dụng di động, tai nghe VR độc lập và thiết lập sản xuất ảo tại trường quay.

Đối với các thiết bị yếu hơn (di động, VR độc lập), bạn có thể muốn:

  • Sử dụng mô hình khớp môi Standard thay vì Realistic - xem So sánh mô hình
  • Chuyển sang loại mô hình Highly Optimized
  • Tăng Kích thước Khối Xử lý để giảm tải CPU
  • Chọn các mô hình LLM / TTS nhỏ hơn

Xem Cấu hình theo Nền tảng Cụ thể để biết các bước thiết lập bổ sung trên Android, iOS, Mac và Linux.

Mang Nhân vật của Riêng Bạn

Dự án demo đi kèm với ba nhân vật MetaHuman mẫu (Aera, Ada, Orlando), nhưng bạn có thể nhập MetaHuman của riêng mình và sử dụng nó trong bản demo.

📺 Hướng dẫn bằng video: Thêm Nhân vật MetaHuman Tùy chỉnh vào Dự án Demo

ghi chú

Bản thân plugin Runtime MetaHuman Lip Sync hỗ trợ nhiều hệ thống nhân vật khác ngoài MetaHumans (nhân vật dựa trên ARKit, Daz Genesis 8/9, Reallusion CC3/CC4, Mixamo, ReadyPlayerMe, v.v. - xem Hướng dẫn Thiết lập Nhân vật Tùy chỉnh). Cho dù bạn đang xây dựng một NPC trong trò chơi, một người thuyết trình ảo, một nhân viên kiosk hay một con người kỹ thuật số cho sản xuất ảo, plugin sẽ thích ứng với quy trình nhân vật của bạn.

Ghi chú cho Mô hình Khớp môi Standard

Nếu bạn định sử dụng Mô hình Standard (thay vì Realistic) trong một trong hai dự án demo, bạn sẽ cần cài đặt plugin Standard Lip Sync Extension. Xem Tiện ích mở rộng Mô hình Standard để biết hướng dẫn cài đặt.

Cần Trợ giúp?

Nếu bạn gặp bất kỳ sự cố nào khi thiết lập hoặc chạy các dự án demo, vui lòng liên hệ:

Join our Discord
online · support

Đối với các yêu cầu phát triển tùy chỉnh (ví dụ: mở rộng bản demo với logic riêng của bạn, điều chỉnh nó cho một nền tảng hoặc quy trình nhân vật cụ thể), hãy liên hệ [email protected].