Chuyển tới nội dung chính

Tổng quan

Tài liệu Runtime MetaHuman Lip Sync

Runtime MetaHuman Lip Sync là một plugin cho phép đồng bộ môi theo thời gian thực, ngoại tuyến và đa nền tảng cho cả nhân vật MetaHuman và nhân vật tùy chỉnh. Plugin cho phép bạn tạo hoạt ảnh môi của nhân vật phản hồi theo đầu vào âm thanh từ nhiều nguồn khác nhau, bao gồm:

Plugin nội bộ tạo ra các viseme (biểu diễn trực quan của các âm vị) dựa trên đầu vào âm thanh. Vì nó hoạt động trực tiếp với dữ liệu âm thanh thay vì văn bản, plugin hỗ trợ đầu vào đa ngôn ngữ bao gồm nhưng không giới hạn ở tiếng Anh, Tây Ban Nha, Pháp, Đức, Nhật, Trung, Hàn, Nga, Ý, Bồ Đào Nha, Ả Rập và Hindi. Về cơ bản, mọi ngôn ngữ đều được hỗ trợ vì đồng bộ môi được tạo ra từ các âm vị âm thanh thay vì xử lý văn bản theo ngôn ngữ cụ thể.

Mô hình Tiêu chuẩn tạo ra 14 viseme và thực hiện hoạt ảnh đồng bộ môi bằng cách sử dụng một tài sản tư thế được xác định trước. Ngược lại, Mô hình Thực tế (độc quyền cho các nhân vật MetaHuman và dựa trên ARKit) tạo ra 81 thay đổi điều khiển khuôn mặt mà không phụ thuộc vào tài sản tư thế được xác định trước, mang lại hoạt ảnh khuôn mặt chân thực hơn đáng kể.

Khả năng Tương thích Nhân vật

Mặc dù có tên gọi như vậy, Runtime MetaHuman Lip Sync hoạt động với nhiều loại nhân vật ngoài MetaHuman:

  • Nhân vật Daz Genesis 8/9
  • Nhân vật Reallusion Character Creator 3/4 (CC3/CC4)
  • Nhân vật Mixamo
  • Hình đại diện ReadyPlayerMe

Hỗ trợ Tiêu chuẩn Hoạt ảnh

  • Hệ thống blendshape dựa trên FACS
  • Tiêu chuẩn blendshape Apple ARKit
  • Bộ âm vị Preston Blair
  • Hệ thống âm vị 3ds Max
  • Bất kỳ nhân vật nào có mục tiêu biến dạng tùy chỉnh cho biểu cảm khuôn mặt

Đối với các nhân vật không phải MetaHuman sử dụng Mô hình Tiêu chuẩn, hãy xem Hướng dẫn Thiết lập Nhân vật Tùy chỉnh. Đối với các nhân vật dựa trên ARKit sử dụng Mô hình Thực tế, hãy xem Lựa chọn Bộ Mục tiêu Biến dạng.

Xem trước Hoạt ảnh

Hãy xem các đoạn hoạt ảnh ngắn này để thấy chất lượng hoạt ảnh đồng bộ môi do plugin tạo ra trên các loại nhân vật và mô hình khác nhau:

Mô hình chân thực với nhân vật MetaHuman
Mô hình tiêu chuẩn với nhân vật MetaHuman
Mô hình tiêu chuẩn với nhân vật tùy chỉnh
Mô hình tiêu chuẩn với nhân vật tùy chỉnh

Tính năng chính

Các mô hình Lip Sync

Plugin cung cấp nhiều mô hình lip sync để phù hợp với các nhu cầu dự án khác nhau:

Mô hình lip sync tiêu chuẩn cung cấp hiệu suất đa nền tảng hiệu quả với khả năng tương thích nhân vật rộng:

  • Hoạt động với MetaHumans và tất cả các loại nhân vật tùy chỉnh
  • Được tối ưu hóa cho hiệu suất thời gian thực
  • Yêu cầu tài nguyên thấp hơn
  • Hỗ trợ nền tảng: Windows, Android, các nền tảng dựa trên Android (bao gồm Meta Quest)
Yêu cầu Plugin Mở rộng

Để sử dụng Mô hình Tiêu chuẩn, bạn cần cài đặt một plugin mở rộng bổ sung. Xem Phần Điều kiện tiên quyết để biết hướng dẫn cài đặt.

Bạn có thể chọn mô hình phù hợp dựa trên yêu cầu dự án của mình về hiệu suất, khả năng tương thích nhân vật, chất lượng hình ảnh, nền tảng mục tiêu và nhu cầu tính năng.

Cách thức hoạt động

Plugin xử lý đầu vào âm thanh theo cách sau:

  1. Dữ liệu âm thanh được nhận dưới dạng định dạng PCM float với kênhtốc độ mẫu được chỉ định
  2. Plugin xử lý âm thanh để tạo ra dữ liệu điều khiển khuôn mặt hoặc viseme tùy thuộc vào mô hình
  3. Đối với các mô hình hỗ trợ tâm trạng, bối cảnh cảm xúc được áp dụng cho hoạt ảnh khuôn mặt
  4. Dữ liệu hoạt ảnh điều khiển chuyển động khuôn mặt của nhân vật trong thời gian thực

Kiến trúc Hiệu suất

Runtime MetaHuman Lip Sync sử dụng suy luận chỉ trên CPU để mang lại kết quả lip sync nhất quán, độ trễ thấp phù hợp cho các ứng dụng thời gian thực. Theo mặc định, plugin thực hiện xử lý lip sync mỗi 10 mili giây (có thể điều chỉnh - xem Cấu hình Plugin để biết tất cả các cài đặt có sẵn bao gồm Kích thước Khối Xử lý, số lượng luồng và các tham số hiệu suất khác).

Tổng quan Kiến trúc Mô hình

Các mô hình lip sync sử dụng mạng nơ-ron dựa trên transformer nhỏ gọn để xử lý âm thanh thông qua phân tích mel-spectrogram. Kiến trúc nhẹ này được thiết kế đặc biệt cho hiệu suất thời gian thực với suy luận CPU hiệu quả và dung lượng bộ nhớ tối thiểu.

Tại sao lại là Suy luận CPU?

Đối với các hoạt động suy luận nhỏ, thường xuyên như lip sync thời gian thực, xử lý CPU mang lại đặc tính độ trễ tốt hơn so với GPU. Ở kích thước lô 1 với khoảng thời gian suy luận 10-100ms, chi phí GPU từ truyền PCIe và khởi chạy hạt nhân thường vượt quá thời gian tính toán thực tế. Ngoài ra, trong các game engine, GPU đã bị bão hòa với kết xuất, shader và vật lý, tạo ra sự tranh chấp tài nguyên dẫn đến các đột biến độ trễ khó dự đoán.

Khả năng Tương thích Phần cứng

Plugin hoạt động hiệu quả trên hầu hết các CPU tầm trung và cao hơn mà không yêu cầu phần cứng đồ họa chuyên dụng, cung cấp hiệu suất thời gian thực trên các nền tảng máy tính để bàn, di động và VR. Đối với phần cứng yếu hơn, bạn có thể điều chỉnh Loại Mô hình thành Bán tối ưu hoặc Tối ưu hóa cao, hoặc tăng Kích thước Khối Xử lý để duy trì hiệu suất thời gian thực với khả năng phản hồi giảm nhẹ.

Bắt đầu Nhanh

Đây là thiết lập cơ bản để kích hoạt lip sync cho nhân vật của bạn:

  1. Đối với nhân vật MetaHuman, hãy làm theo Hướng dẫn Thiết lập
  2. Đối với nhân vật tùy chỉnh, hãy làm theo Hướng dẫn Thiết lập Nhân vật Tùy chỉnh
  3. Chọn và cấu hình mô hình lip sync ưa thích của bạn
  4. Thiết lập xử lý đầu vào âm thanh trong Blueprint của bạn
  5. Kết nối nút lip sync thích hợp trong Animation Blueprint
  6. Phát âm thanh và xem nhân vật của bạn hoạt ảnh đồng bộ

Hoạt ảnh Mắt Tùy chọn

Plugin cũng bao gồm các công cụ hỗ trợ tùy chọn cho chớp mắt tự độngtheo dõi ánh nhìn trên MetaHumans. Các tính năng này độc lập với lip sync và có thể được sử dụng riêng lẻ hoặc xếp lớp lên trên nó. Xem Công cụ Hỗ trợ Hoạt ảnh Mắt.

Tài nguyên Bổ sung

📦 Tải xuống & Liên kết

Dự án Demo:

Hai dự án demo sẵn sàng sử dụng có sẵn - xem trang Dự án Demo chuyên dụng để biết chi tiết đầy đủ, tải xuống và hướng dẫn:

Cả hai bản demo đều đa nền tảng (Windows, Mac, Linux, iOS, Android, Meta Quest) và được phân phối dưới dạng bản dựng đóng gói và dự án nguồn UE 5.6+ đầy đủ.

🎥 Video Hướng dẫn

Bản demo nổi bật:

Hướng dẫn Mô hình Chân thực (Chất lượng Cao):

Hướng dẫn Mô hình Tiêu chuẩn:

Thiết lập Chung:

💬 Hỗ trợ

  • Phát triển Tùy chỉnh: [email protected] (giải pháp phù hợp cho nhóm & tổ chức)
Join our Discord
online · support