Tổng quan

Runtime MetaHuman Lip Sync là một plugin cho phép đồng bộ khẩu hình miệng theo thời gian thực, ngoại tuyến và đa nền tảng cho cả MetaHuman và các nhân vật tùy chỉnh. Nó cho phép bạn tạo hoạt ảnh khẩu hình miệng của nhân vật phản hồi theo đầu vào âm thanh từ nhiều nguồn khác nhau, bao gồm:

Đầu vào micro qua Runtime Audio Importer's sóng âm có thể thu được
Giọng nói tổng hợp từ Runtime Text To Speech hoặc Runtime AI Chatbot Integrator
Dữ liệu âm thanh phát trực tuyến hoặc nhập vào ở nhiều định dạng qua Runtime Audio Importer
Bất kỳ dữ liệu âm thanh nào ở định dạng PCM float (một mảng các mẫu dấu phẩy động)

Plugin nội bộ tạo viseme (biểu diễn trực quan của âm vị) dựa trên đầu vào âm thanh. Vì hoạt động trực tiếp với dữ liệu âm thanh thay vì văn bản, plugin hỗ trợ đầu vào đa ngôn ngữ bao gồm nhưng không giới hạn ở tiếng Anh, tiếng Tây Ban Nha, tiếng Pháp, tiếng Đức, tiếng Nhật, tiếng Trung, tiếng Hàn, tiếng Nga, tiếng Ý, tiếng Bồ Đào Nha, tiếng Ả Rập và tiếng Hindi. Về cơ bản, mọi ngôn ngữ đều được hỗ trợ vì khớp môi được tạo từ âm vị âm thanh thay vì xử lý văn bản theo ngôn ngữ cụ thể.

Mô hình Chuẩn tạo ra 14 viseme và thực hiện hoạt ảnh đồng bộ môi bằng cách sử dụng tệp tư thế được xác định trước. Ngược lại, Mô hình Chân thực (độc quyền cho các nhân vật dựa trên MetaHuman và ARKit) tạo ra 81 thay đổi điều khiển khuôn mặt mà không phụ thuộc vào tệp tư thế được xác định trước, mang lại hoạt ảnh khuôn mặt chân thực hơn đáng kể.

Tính tương thích của nhân vật

Mặc dù có tên gọi như vậy, Runtime MetaHuman Lip Sync hoạt động được với nhiều dạng nhân vật khác ngoài MetaHuman:

Các Hệ Thống Nhân Vật Thương Mại Phổ Biến

Daz Genesis 8/9 nhân vật
Reallusion Character Creator 3/4 (CC3/CC4) nhân vật
Mixamo nhân vật
ReadyPlayerMe hình đại diện

Hỗ trợ Chuẩn Hoạt ảnh

Hệ thống blendshape dựa trên FACS
Tiêu chuẩn blendshape Apple ARKit
Bộ âm vị Preston Blair
Hệ thống âm vị 3ds Max
Bất kỳ nhân vật nào có mục tiêu biến dạng tùy chỉnh cho biểu cảm khuôn mặt

Đối với các nhân vật không phải MetaHuman sử dụng Mô hình Chuẩn, hãy xem Hướng dẫn Thiết lập Nhân vật Tùy chỉnh. Đối với các nhân vật dựa trên ARKit sử dụng Mô hình Chân thực, hãy xem Lựa chọn Bộ Mục tiêu Biến dạng.

Xem trước Hoạt ảnh

Hãy xem các đoạn hoạt ảnh ngắn này để thấy chất lượng hoạt ảnh đồng bộ khẩu hình (lip sync) do plugin tạo ra trên nhiều loại nhân vật và mô hình khác nhau:

Mô hình chân thực với nhân vật MetaHuman

Mô hình tiêu chuẩn với nhân vật MetaHuman

Mô hình tiêu chuẩn với nhân vật tùy chỉnh

Tính năng chính

Đồng bộ khớp môi thời gian thực từ đầu vào micro
Hỗ trợ xử lý âm thanh ngoại tuyến
Tương thích đa nền tảng với hỗ trợ nền tảng cụ thể theo từng mô hình
Hỗ trợ nhiều hệ thống nhân vật và tiêu chuẩn hoạt ảnh
Ánh xạ viseme linh hoạt cho các nhân vật tùy chỉnh
Hỗ trợ ngôn ngữ phổ quát - hoạt động với mọi ngôn ngữ nói thông qua phân tích âm thanh
Hoạt ảnh khuôn mặt nhận biết cảm xúc để tăng cường biểu cảm
Loại đầu ra có thể cấu hình (điều khiển toàn bộ khuôn mặt hoặc chỉ miệng)
Hỗ trợ hoạt ảnh mắt tùy chọn cho chớp mắt và theo dõi ánh nhìn

Các mô hình Lip Sync

Plugin cung cấp nhiều mô hình đồng bộ môi (lip sync) để phù hợp với các nhu cầu khác nhau của dự án:

Mô hình Chuẩn
Mô hình Chân thực
Mô hình Hiện thực Hỗ trợ Cảm xúc

Mô hình đồng bộ môi tiêu chuẩn mang lại hiệu suất đa nền tảng hiệu quả với khả năng tương thích nhân vật rộng rãi:

Hoạt động với MetaHumans và tất cả các loại nhân vật tùy chỉnh
Tối ưu hóa cho hiệu suất thời gian thực
Yêu cầu tài nguyên thấp hơn
Hỗ trợ nền tảng: Windows, Android, các nền tảng dựa trên Android (bao gồm Meta Quest)

Yêu cầu Plugin Mở rộng

Để sử dụng Mô hình Chuẩn, bạn cần cài đặt một plugin mở rộng bổ sung. Xem Phần Điều kiện Tiên quyết để biết hướng dẫn cài đặt.

Bạn có thể chọn mô hình phù hợp dựa trên yêu cầu dự án của mình về hiệu suất, khả năng tương thích nhân vật, chất lượng hình ảnh, nền tảng mục tiêu và nhu cầu tính năng.

Cách thức hoạt động

Plugin xử lý đầu vào âm thanh theo cách sau:

Dữ liệu âm thanh được nhận dưới dạng định dạng PCM float với kênh và tần số lấy mẫu được chỉ định
Plugin xử lý âm thanh để tạo ra dữ liệu điều khiển khuôn mặt hoặc viseme tùy thuộc vào mô hình
Đối với các mô hình hỗ trợ cảm xúc, ngữ cảnh cảm xúc được áp dụng vào hoạt ảnh khuôn mặt
Dữ liệu hoạt ảnh điều khiển chuyển động khuôn mặt của nhân vật theo thời gian thực

Kiến trúc Hiệu suất

Runtime MetaHuman Lip Sync sử dụng suy luận chỉ trên CPU để mang lại kết quả đồng bộ môi nhất quán, độ trễ thấp, phù hợp cho các ứng dụng thời gian thực. Theo mặc định, plugin thực hiện xử lý đồng bộ môi mỗi 10 mili giây (có thể điều chỉnh - xem Cấu hình Plugin để biết tất cả các cài đặt có sẵn bao gồm Kích thước Khối Xử lý, số lượng luồng và các tham số hiệu suất khác).

Tổng quan Kiến trúc Mô hình

Các mô hình đồng bộ khẩu hình sử dụng mạng nơ-ron dựa trên transformer nhỏ gọn, xử lý âm thanh thông qua phân tích phổ mel. Kiến trúc nhẹ này được thiết kế đặc biệt cho hiệu suất thời gian thực với khả năng suy luận CPU hiệu quả và dung lượng bộ nhớ tối thiểu.

Tại sao lại suy luận trên CPU?

Đối với các hoạt động suy luận nhỏ, thường xuyên như đồng bộ môi thời gian thực, xử lý bằng CPU mang lại đặc tính độ trễ tốt hơn so với GPU. Ở kích thước lô 1 với khoảng thời gian suy luận 10-100ms, chi phí GPU từ việc truyền PCIe và khởi chạy kernel thường vượt quá thời gian tính toán thực tế. Ngoài ra, trong các game engine, GPU vốn đã bị bão hòa bởi kết xuất, shader và vật lý, tạo ra sự tranh chấp tài nguyên dẫn đến các đột biến độ trễ khó dự đoán.

Tương thích Phần cứng

Plugin hoạt động hiệu quả trên hầu hết các CPU tầm trung và cao cấp mà không yêu cầu phần cứng đồ họa chuyên dụng, mang lại hiệu suất thời gian thực trên các nền tảng desktop, di động và VR. Đối với phần cứng yếu hơn, bạn có thể điều chỉnh Loại Mô Hình thành Bán Tối Ưu hoặc Tối Ưu Cao, hoặc tăng Kích Thước Khối Xử Lý để duy trì hiệu suất thời gian thực với độ phản hồi giảm nhẹ.

Hướng dẫn nhanh

Dưới đây là thiết lập cơ bản để kích hoạt đồng bộ khẩu hình (lip sync) cho nhân vật của bạn:

Đối với nhân vật MetaHuman, hãy làm theo Hướng dẫn Thiết lập
Đối với nhân vật tùy chỉnh, hãy làm theo Hướng dẫn Thiết lập Nhân vật Tùy chỉnh
Chọn và cấu hình mô hình đồng bộ môi ưa thích của bạn
Thiết lập xử lý đầu vào âm thanh trong Blueprint của bạn
Kết nối nút đồng bộ môi phù hợp trong Animation Blueprint
Phát âm thanh và xem nhân vật của bạn hoạt hình đồng bộ

Tùy chọn Hoạt ảnh Mắt

Plugin cũng bao gồm các công cụ hỗ trợ tùy chọn cho chớp mắt tự động và theo dõi ánh nhìn trên MetaHumans. Các tính năng này độc lập với đồng bộ môi và có thể được sử dụng riêng lẻ hoặc kết hợp chồng lên nhau. Xem Công cụ hỗ trợ hoạt ảnh mắt.

Tài nguyên bổ sung

📦 Tải xuống & Liên kết

Dự án Mẫu:

Hai dự án demo sẵn sàng sử dụng đã có sẵn - xem trang Dự án Demo chuyên dụng để biết chi tiết đầy đủ, các bản tải xuống và hướng dẫn:

Quy trình NPC Hội thoại AI Đầy đủ - nhận dạng giọng nói + chatbot LLM + TTS + đồng bộ môi
Bản demo Đồng bộ môi Cơ bản - đầu vào micrô, tệp âm thanh, TTS

Cả hai bản demo đều đa nền tảng (Windows, Mac, Linux, iOS, Android, Meta Quest) và được phân phối dưới dạng bản build đóng gói cùng các dự án mã nguồn đầy đủ cho UE 5.6+.

🎥 Video Hướng Dẫn

Các Bản Demo Nổi Bật:

Hướng dẫn Mô hình Chân thực (Chất lượng Cao):

Hướng dẫn Mô hình Chuẩn:

Thiết lập chung:

💬 Hỗ trợ

Phát triển tùy chỉnh: [email protected] (giải pháp phù hợp cho nhóm & tổ chức)

Join our Discord

online · support

Tính tương thích của nhân vật​

Các Hệ Thống Nhân Vật Thương Mại Phổ Biến​

Hỗ trợ Chuẩn Hoạt ảnh​

Xem trước Hoạt ảnh​

Tính năng chính​

Các mô hình Lip Sync​

Cách thức hoạt động​

Kiến trúc Hiệu suất​

Tổng quan Kiến trúc Mô hình​

Tại sao lại suy luận trên CPU?​

Tương thích Phần cứng​

Hướng dẫn nhanh​

Tùy chọn Hoạt ảnh Mắt​

Tài nguyên bổ sung​

📦 Tải xuống & Liên kết​

🎥 Video Hướng Dẫn​

Các Bản Demo Nổi Bật:​

Hướng dẫn Mô hình Chân thực (Chất lượng Cao):​

Hướng dẫn Mô hình Chuẩn:​

Thiết lập chung:​

💬 Hỗ trợ​