Chuyển tới nội dung chính

Cách sử dụng các mô hình giọng nói

Chọn, Tải xuống và Đóng gói các Mô hình

Plugin hỗ trợ nhiều ngôn ngữ, giọng nói và chất lượng khác nhau. Bạn có thể dễ dàng tải xuống và quản lý các mô hình giọng nói cần thiết thông qua cài đặt plugin trong trình biên tập. Thực hiện theo các bước sau để chọn, tải xuống và sắp xếp các mô hình giọng nói:

  1. Mở cài đặt dự án trong trình biên tập và điều hướng đến Plugins -> Runtime Text To Speech.
  2. Trong danh sách Available Voice Models to Download, nhấp vào nút Download bên cạnh mô hình giọng nói bạn muốn tải xuống. Bạn có thể tải xuống nhiều mô hình giọng nói cùng lúc.
  3. Sau khi quá trình tải xuống hoàn tất, các mô hình sẽ xuất hiện trong phần Downloaded Voice Models ở đầu danh sách và sẽ có sẵn để sử dụng trong dự án của bạn.
  4. Tùy chọn, bạn có thể xem trước các mô hình giọng nói đã tải xuống bằng cách nhập văn bản vào trường văn bản và nhấp vào nút Play. Thao tác này sẽ tổng hợp và phát văn bản bằng mô hình giọng nói đã chọn. Tính năng này hữu ích để kiểm tra trong trình biên tập nhằm đảm bảo mô hình giọng nói phát ra như mong đợi.

Để xóa bất kỳ mô hình giọng nói nào đã tải xuống, nhấp vào nút Delete bên cạnh mô hình bạn muốn xóa.

Tất cả các mô hình giọng nói đã tải xuống sẽ được đóng gói cùng với dự án của bạn, vì vậy để giảm kích thước dự án, hãy xóa bất kỳ mô hình giọng nói nào bạn không còn cần đến.

Nhập các Mô hình Giọng nói Tùy chỉnh

Ngoài các mô hình giọng nói được cấu hình sẵn, bạn có thể nhập các mô hình giọng nói tùy chỉnh của riêng mình. Plugin hỗ trợ cả định dạng mô hình giọng nói Piper và Kokoro:

  1. Trong cài đặt plugin, nhấp vào nút Import Custom Voice Model ở đầu màn hình.
  2. Trong hộp thoại hiện ra, chọn loại mô hình (Piper hoặc Kokoro).
  3. Duyệt và chọn tệp mô hình của bạn:
    • Đối với Piper: Chọn tệp mô hình định dạng ONNX (*.onnx)
    • Đối với Kokoro: Chọn tệp kiểu định dạng BIN (*.bin)
  4. Duyệt và chọn tệp cấu hình tương ứng (*.json):
    • Đối với Piper: Tệp này chứa các cài đặt như tốc độ lấy mẫu, ánh xạ âm vị và các tham số suy luận
    • Đối với Kokoro: Tệp này chứa cấu hình tokenizer
  5. Đối với các mô hình Kokoro, chỉ định mã ngôn ngữ (ví dụ: en-us, en-gb-x-rp, fr, es, v.v.)
  6. Nhấp vào Import để thêm mô hình giọng nói tùy chỉnh vào dự án của bạn.

Ghi chú về các Mô hình Giọng nói Tùy chỉnh

  • Mô hình Piper: Bạn có thể sử dụng các mô hình giọng nói Piper được huấn luyện tùy chỉnh, đặc biệt hữu ích nếu bạn đã tự huấn luyện giọng nói của mình hoặc cần một giọng nói cụ thể không có trong danh sách được cấu hình sẵn. Tệp mô hình ONNX và tệp cấu hình JSON phải tương thích với định dạng Piper.

  • Mô hình Kokoro: Các mô hình này sử dụng hệ thống hai phần: tệp kiểu (định dạng BIN) và một mô hình ONNX dùng chung. Khi bạn nhập tệp kiểu Kokoro lần đầu tiên, plugin sẽ đề nghị tải xuống mô hình ONNX cần thiết một cách tự động.

  • Mã ngôn ngữ: Đối với các mô hình Kokoro, mã ngôn ngữ rất quan trọng để chuyển đổi âm vị chính xác. Các mã phổ biến bao gồm:

    • Tiếng Anh (Mỹ): en-us
    • Tiếng Anh (Anh): en-gb-x-rp
    • Tiếng Tây Ban Nha: es
    • Tiếng Pháp: fr
    • Tiếng Ý: it
    • Tiếng Bồ Đào Nha (Brazil): pt-br
    • Tiếng Trung (Phổ thông): cmn
    • Tiếng Hindi: hi
    • Tiếng Đức: de

Các mô hình giọng nói tùy chỉnh được xử lý giống như các mô hình đã tải xuống và sẽ được đóng gói cùng với dự án của bạn.