Chuyển tới nội dung chính

Tổng quan

Tài liệu Runtime Text To Speech

Runtime Text To Speech là một plugin cho phép tổng hợp giọng nói từ văn bản theo thời gian thực, ngoại tuyến và đa nền tảng. Plugin hỗ trợ 51 ngôn ngữ, hơn 2800 giọng nói75 chất lượng giọng, và hiện có thêm Kokoro, một dòng mô hình giọng nói mã nguồn mở với chất lượng đầu ra đạt chuẩn phòng thu. Plugin này nhanh, nhẹ và lý tưởng cho các trò chơi, ứng dụng và dự án yêu cầu giọng nói tự nhiên.

Hiện tại, plugin hỗ trợ các nền tảng sau: Windows, Linux, Mac, Android (bao gồm Meta Quest) và iOS.

📹 Xem Hoạt Động
Xem Bản Demo trên YouTube (video cũ hơn) hoặc kiểm tra các mẫu giọng nói chung tại Piper Samples.

Kokoro

Plugin cũng hỗ trợ các mô hình giọng nói Kokoro (bao gồm Kokoro v1.1) - kiến trúc TTS mã nguồn mở chất lượng cao vừa được công bố trên Hugging Face.

  • 151 mô hình chất lượng cao trên 8 ngôn ngữ:
    🇺🇸 Tiếng Anh (Mỹ) • 🇬🇧 Tiếng Anh (Anh) • 🇨🇳 Tiếng Trung Giản Thể • 🇪🇸 Tiếng Tây Ban Nha • 🇧🇷 Tiếng Bồ Đào Nha • 🇮🇳 Tiếng Hindi • 🇫🇷 Tiếng Pháp • 🇮🇹 Tiếng Ý
  • Xem trước trực tiếp có sẵn: Kiểm Tra Giọng Nói Kokoro
Tại sao lại là Kokoro?

Các mô hình giọng nói Kokoro hiện đang là một trong những giải pháp TTS mã nguồn mở chất lượng cao nhất hiện nay.

Các Tính Năng Chính

  • Tổng hợp hoàn toàn ngoại tuyến: Không yêu cầu kết nối internet
  • Nhiều chế độ tổng hợp:
    • Tổng hợp thông thường: Tạo âm thanh hoàn chỉnh cho toàn bộ văn bản
    • Tổng hợp phát trực tuyến: Xử lý các khối âm thanh theo thời gian thực khi chúng được tạo ra
  • Hỗ trợ hủy bỏ: Có thể ngắt các thao tác tổng hợp đang diễn ra bất kỳ lúc nào
  • Tương thích đa nền tảng: Hoạt động trên tất cả các nền tảng chính
  • Hỗ trợ Blueprint và C++: Truy cập đầy đủ API trong cả hai môi trường

Cài Đặt

Để bắt đầu, hãy cài đặt các mô hình giọng nói thông qua cài đặt plugin trong lần chạy đầu tiên. Sau khi cài đặt, bạn có thể bắt đầu sử dụng plugin trong dự án của mình. Để biết hướng dẫn chi tiết, hãy tham khảo trang Cách sử dụng plugin.

Chi Tiết Plugin

Plugin này cung cấp khả năng tổng hợp giọng nói từ văn bản theo thời gian thực bằng cách sử dụng các thư viện Piper, KokoroONNX Runtime. Plugin cho phép bạn tải xuống và quản lý nhiều mô hình giọng nói thông qua trình chỉnh sửa, sau đó có thể đóng gói cùng với dự án của bạn.

Chức năng cốt lõi bao gồm xử lý đầu vào văn bản và lựa chọn mô hình giọng nói để tổng hợp. Một số mô hình giọng nói hỗ trợ nhiều người nói - ví dụ, English LibriTTS bao gồm hơn 900 người nói khác nhau, German Thorsten Emotional có 7 người nói, v.v.

Đầu ra là dữ liệu âm thanh PCM (ở định dạng float) với tốc độ mẫu và số kênh tương ứng. Dữ liệu này có thể được xử lý theo hai cách:

  • Tổng hợp thông thường: Nhận toàn bộ dữ liệu âm thanh khi quá trình tổng hợp kết thúc
  • Tổng hợp phát trực tuyến: Nhận dữ liệu âm thanh theo từng khối khi chúng được tạo ra, cho phép xử lý theo thời gian thực

Việc chuyển đổi dữ liệu âm thanh thô này thành một sóng âm thanh có thể phát thường yêu cầu plugin Runtime Audio Importer, plugin này cung cấp cả khả năng phát lại thông thường và phát trực tuyến.

Tài Nguyên Bổ Sung

Join our Discord
online · support