Tổng quan

Runtime MetaHuman Lip Sync là một plugin cho phép đồng bộ môi theo thời gian thực, ngoại tuyến và đa nền tảng cho cả nhân vật MetaHuman và nhân vật tùy chỉnh. Plugin cho phép bạn tạo hoạt ảnh môi của nhân vật phản hồi theo đầu vào âm thanh từ nhiều nguồn khác nhau, bao gồm:
- Đầu vào micro qua sóng âm có thể thu của Runtime Audio Importer
- Giọng nói tổng hợp từ Runtime Text To Speech hoặc Runtime AI Chatbot Integrator
- Dữ liệu âm thanh được truyền trực tuyến hoặc nhập ở nhiều định dạng qua Runtime Audio Importer
- Bất kỳ dữ liệu âm thanh nào ở định dạng PCM float (một mảng các mẫu dấu phẩy động)
Plugin nội bộ tạo ra các viseme (biểu diễn trực quan của các âm vị) dựa trên đầu vào âm thanh. Vì nó hoạt động trực tiếp với dữ liệu âm thanh thay vì văn bản, plugin hỗ trợ đầu vào đa ngôn ngữ bao gồm nhưng không giới hạn ở tiếng Anh, Tây Ban Nha, Pháp, Đức, Nhật, Trung, Hàn, Nga, Ý, Bồ Đào Nha, Ả Rập và Hindi. Về cơ bản, mọi ngôn ngữ đều được hỗ trợ vì đồng bộ môi được tạo ra từ các âm vị âm thanh thay vì xử lý văn bản theo ngôn ngữ cụ thể.
Mô hình Tiêu chuẩn tạo ra 14 viseme và thực hiện hoạt ảnh đồng bộ môi bằng cách sử dụng một tài sản tư thế được xác định trước. Ngược lại, Mô hình Thực tế (độc quyền cho các nhân vật MetaHuman và dựa trên ARKit) tạo ra 81 thay đổi điều khiển khuôn mặt mà không phụ thuộc vào tài sản tư thế được xác định trước, mang lại hoạt ảnh khuôn mặt chân thực hơn đáng kể.
Khả năng Tương thích Nhân vật
Mặc dù có tên gọi như vậy, Runtime MetaHuman Lip Sync hoạt động với nhiều loại nhân vật ngoài MetaHuman:
Hệ thống Nhân vật Thương mại Phổ biến
- Nhân vật Daz Genesis 8/9
- Nhân vật Reallusion Character Creator 3/4 (CC3/CC4)
- Nhân vật Mixamo
- Hình đại diện ReadyPlayerMe
Hỗ trợ Tiêu chuẩn Hoạt ảnh
- Hệ thống blendshape dựa trên FACS
- Tiêu chuẩn blendshape Apple ARKit
- Bộ âm vị Preston Blair
- Hệ thống âm vị 3ds Max
- Bất kỳ nhân vật nào có mục tiêu biến dạng tùy chỉnh cho biểu cảm khuôn mặt
Đối với các nhân vật không phải MetaHuman sử dụng Mô hình Tiêu chuẩn, hãy xem Hướng dẫn Thiết lập Nhân vật Tùy chỉnh. Đối với các nhân vật dựa trên ARKit sử dụng Mô hình Thực tế, hãy xem Lựa chọn Bộ Mục tiêu Biến dạng.
Xem trước Hoạt ảnh
Hãy xem các đoạn hoạt ảnh ngắn này để thấy chất lượng hoạt ảnh đồng bộ môi do plugin tạo ra trên các loại nhân vật và mô hình khác nhau:
Tính năng chính
- Đồng bộ khẩu hình miệng thời gian thực từ đầu vào microphone
- Hỗ trợ xử lý âm thanh ngoại tuyến
- Tương thích đa nền tảng với hỗ trợ nền tảng cụ thể cho từng mô hình
- Hỗ trợ nhiều hệ thống nhân vật và tiêu chuẩn hoạt ảnh
- Ánh xạ viseme linh hoạt cho nhân vật tùy chỉnh
- Hỗ trợ ngôn ngữ phổ quát - hoạt động với mọi ngôn ngữ nói thông qua phân tích âm thanh
- Hoạt ảnh khuôn mặt nhận biết tâm trạng để tăng cường biểu cảm
- Các loại đầu ra có thể cấu hình (điều khiển toàn bộ khuôn mặt hoặc chỉ miệng)
- Công cụ hỗ trợ hoạt ảnh mắt tùy chọn cho chớp mắt và theo dõi ánh nhìn
Các mô hình Lip Sync
Plugin cung cấp nhiều mô hình lip sync để phù hợp với các nhu cầu dự án khác nhau:
- Mô hình Tiêu chuẩn
- Mô hình Chân thực
- Mô hình Chân thực Hỗ trợ Tâm trạng
Mô hình lip sync tiêu chuẩn cung cấp hiệu suất đa nền tảng hiệu quả với khả năng tương thích nhân vật rộng:
- Hoạt động với MetaHumans và tất cả các loại nhân vật tùy chỉnh
- Được tối ưu hóa cho hiệu suất thời gian thực
- Yêu cầu tài nguyên thấp hơn
- Hỗ trợ nền tảng: Windows, Android, các nền tảng dựa trên Android (bao gồm Meta Quest)
Để sử dụng Mô hình Tiêu chuẩn, bạn cần cài đặt một plugin mở rộng bổ sung. Xem Phần Điều kiện tiên quyết để biết hướng dẫn cài đặt.
Mô hình lip sync chân thực mang lại độ trung thực hình ảnh nâng cao, đặc biệt dành cho nhân vật MetaHuman:
- Tương thích với nhân vật MetaHuman và dựa trên ARKit với hoạt ảnh khuôn mặt tiên tiến (81 điều khiển khuôn mặt)
- Chất lượng hình ảnh cao hơn với chuyển động miệng tự nhiên hơn
- Yêu cầu hiệu suất cao hơn một chút
- Xử lý âm thanh phát trực tuyến cho các ứng dụng thời gian thực
- Lý tưởng cho trải nghiệm điện ảnh và tương tác nhân vật cận cảnh
- Ba mức tối ưu hóa: Gốc, Bán tối ưu và Tối ưu hóa cao
- Bộ mục tiêu biến dạng có thể cấu hình (xem Lựa chọn Bộ mục tiêu Biến dạng)
- Hỗ trợ nền tảng: Windows, Mac, iOS, Linux, Android, các nền tảng dựa trên Android (bao gồm Meta Quest)
Mô hình Chân thực được bao gồm trong plugin chính và không yêu cầu bất kỳ tiện ích mở rộng bổ sung nào để sử dụng.
Mô hình chân thực hỗ trợ tâm trạng cung cấp hoạt ảnh khuôn mặt nhận biết cảm xúc cho nhân vật MetaHuman:
- Tương thích với nhân vật MetaHuman và dựa trên ARKit với hoạt ảnh khuôn mặt phản ứng theo tâm trạng (81 điều khiển khuôn mặt)
- 12 loại tâm trạng khác nhau (Trung tính, Vui vẻ, Buồn bã, Tự tin, v.v.)
- Cường độ tâm trạng có thể cấu hình (0.0 đến 1.0)
- Thời gian nhìn trước có thể điều chỉnh để cải thiện đồng bộ hóa (20ms đến 200ms)
- Các loại đầu ra có thể chọn: Điều khiển Toàn bộ Khuôn mặt hoặc Chỉ Miệng
- Xử lý âm thanh phát trực tuyến cho các ứng dụng thời gian thực
- Bộ mục tiêu biến dạng có thể cấu hình (xem Lựa chọn Bộ mục tiêu Biến dạng)
- Hỗ trợ nền tảng: Windows, Mac, iOS, Linux, Android, các nền tảng dựa trên Android (bao gồm Meta Quest)
Mô hình Chân thực Hỗ trợ Tâm trạng được bao gồm trong plugin chính và không yêu cầu bất kỳ tiện ích mở rộng bổ sung nào để sử dụng.
Bạn có thể chọn mô hình phù hợp dựa trên yêu cầu dự án của mình về hiệu suất, khả năng tương thích nhân vật, chất lượng hình ảnh, nền tảng mục tiêu và nhu cầu tính năng.
Cách thức hoạt động
Plugin xử lý đầu vào âm thanh theo cách sau:
- Dữ liệu âm thanh được nhận dưới dạng định dạng PCM float với kênh và tốc độ mẫu được chỉ định
- Plugin xử lý âm thanh để tạo ra dữ liệu điều khiển khuôn mặt hoặc viseme tùy thuộc vào mô hình
- Đối với các mô hình hỗ trợ tâm trạng, bối cảnh cảm xúc được áp dụng cho hoạt ảnh khuôn mặt
- Dữ liệu hoạt ảnh điều khiển chuyển động khuôn mặt của nhân vật trong thời gian thực
Kiến trúc Hiệu suất
Runtime MetaHuman Lip Sync sử dụng suy luận chỉ trên CPU để mang lại kết quả lip sync nhất quán, độ trễ thấp phù hợp cho các ứng dụng thời gian thực. Theo mặc định, plugin thực hiện xử lý lip sync mỗi 10 mili giây (có thể điều chỉnh - xem Cấu hình Plugin để biết tất cả các cài đặt có sẵn bao gồm Kích thước Khối Xử lý, số lượng luồng và các tham số hiệu suất khác).
Tổng quan Kiến trúc Mô hình
Các mô hình lip sync sử dụng mạng nơ-ron dựa trên transformer nhỏ gọn để xử lý âm thanh thông qua phân tích mel-spectrogram. Kiến trúc nhẹ này được thiết kế đặc biệt cho hiệu suất thời gian thực với suy luận CPU hiệu quả và dung lượng bộ nhớ tối thiểu.
Tại sao lại là Suy luận CPU?
Đối với các hoạt động suy luận nhỏ, thường xuyên như lip sync thời gian thực, xử lý CPU mang lại đặc tính độ trễ tốt hơn so với GPU. Ở kích thước lô 1 với khoảng thời gian suy luận 10-100ms, chi phí GPU từ truyền PCIe và khởi chạy hạt nhân thường vượt quá thời gian tính toán thực tế. Ngoài ra, trong các game engine, GPU đã bị bão hòa với kết xuất, shader và vật lý, tạo ra sự tranh chấp tài nguyên dẫn đến các đột biến độ trễ khó dự đoán.
Khả năng Tương thích Phần cứng
Plugin hoạt động hiệu quả trên hầu hết các CPU tầm trung và cao hơn mà không yêu cầu phần cứng đồ họa chuyên dụng, cung cấp hiệu suất thời gian thực trên các nền tảng máy tính để bàn, di động và VR. Đối với phần cứng yếu hơn, bạn có thể điều chỉnh Loại Mô hình thành Bán tối ưu hoặc Tối ưu hóa cao, hoặc tăng Kích thước Khối Xử lý để duy trì hiệu suất thời gian thực với khả năng phản hồi giảm nhẹ.
Bắt đầu Nhanh
Đây là thiết lập cơ bản để kích hoạt lip sync cho nhân vật của bạn:
- Đối với nhân vật MetaHuman, hãy làm theo Hướng dẫn Thiết lập
- Đối với nhân vật tùy chỉnh, hãy làm theo Hướng dẫn Thiết lập Nhân vật Tùy chỉnh
- Chọn và cấu hình mô hình lip sync ưa thích của bạn
- Thiết lập xử lý đầu vào âm thanh trong Blueprint của bạn
- Kết nối nút lip sync thích hợp trong Animation Blueprint
- Phát âm thanh và xem nhân vật của bạn hoạt ảnh đồng bộ
Hoạt ảnh Mắt Tùy chọn
Plugin cũng bao gồm các công cụ hỗ trợ tùy chọn cho chớp mắt tự động và theo dõi ánh nhìn trên MetaHumans. Các tính năng này độc lập với lip sync và có thể được sử dụng riêng lẻ hoặc xếp lớp lên trên nó. Xem Công cụ Hỗ trợ Hoạt ảnh Mắt.
Tài nguyên Bổ sung
📦 Tải xuống & Liên kết
Dự án Demo:
Hai dự án demo sẵn sàng sử dụng có sẵn - xem trang Dự án Demo chuyên dụng để biết chi tiết đầy đủ, tải xuống và hướng dẫn:
- Quy trình làm việc NPC Hội thoại AI Đầy đủ - nhận dạng giọng nói + chatbot LLM + TTS + lip sync
- Demo Lip Sync Cơ bản - đầu vào microphone, tệp âm thanh, TTS
Cả hai bản demo đều đa nền tảng (Windows, Mac, Linux, iOS, Android, Meta Quest) và được phân phối dưới dạng bản dựng đóng gói và dự án nguồn UE 5.6+ đầy đủ.
🎥 Video Hướng dẫn
Bản demo nổi bật:
Hướng dẫn Mô hình Chân thực (Chất lượng Cao):
- Lip Sync Chất lượng Cao từ Tệp/Bộ đệm Âm thanh
- Lip Sync Chất lượng Cao với Kiểm soát Tâm trạng & TTS Cục bộ
- Lip Sync Chất lượng Cao với ElevenLabs & OpenAI TTS
- Lip Sync Microphone Trực tiếp Chất lượng Cao
Hướng dẫn Mô hình Tiêu chuẩn:
- Lip Sync Microphone Trực tiếp Tiêu chuẩn
- Lip Sync Tiêu chuẩn với Chuyển văn bản thành giọng nói Cục bộ
- Lip Sync Tiêu chuẩn với ElevenLabs & OpenAI TTS
Thiết lập Chung:
- Thêm Nhân vật MetaHuman Tùy chỉnh vào Dự án Demo
- Video hướng dẫn thiết lập
- Hướng dẫn dự án demo (cũ hơn)
💬 Hỗ trợ
- Phát triển Tùy chỉnh: [email protected] (giải pháp phù hợp cho nhóm & tổ chức)