Tổng quan

Runtime Speech Recognizer là một plugin đa nền tảng cho phép nhận dạng giọng nói thời gian thực, ngoại tuyến. Dựa trên công nghệ Whisper OpenAI, đặc biệt là thư viện whisper.cpp, và hỗ trợ nhiều mô hình ngôn ngữ được chọn trước trong cài đặt của plugin với khả năng tự động phát hiện ngôn ngữ.

Cách cài đặt

Khi chạy lần đầu, cài đặt các mô hình ngôn ngữ (một hộp thoại sẽ xuất hiện yêu cầu bạn thực hiện việc này một cách tự động).

Mô tả cơ bản

Plugin này cung cấp nhận dạng giọng nói thời gian thực sử dụng các thuật toán tiên tiến dựa trên thư viện whisper.cpp, được phát hành dưới giấy phép MIT cho phép. Nó so khớp dữ liệu âm thanh đầu vào, được cung cấp dưới dạng luồng hoặc đầu vào không phải luồng (chẳng hạn như tệp hoặc bộ đệm dữ liệu âm thanh), với các mô hình ngôn ngữ đã được huấn luyện trước. Khi sử dụng các mô hình đa ngôn ngữ, plugin có thể tự động phát hiện ngôn ngữ được nói và cung cấp thông tin này cùng với văn bản đã nhận dạng.

Plugin sử dụng các phương pháp tăng tốc GPU khác nhau tùy thuộc vào nền tảng:

Windows và Linux: Sử dụng Vulkan để tăng tốc GPU, giúp tăng tốc đáng kể quá trình nhận dạng
Mac và iOS: Sử dụng Metal để tăng tốc GPU, mang lại hiệu suất tương đương với tăng tốc Vulkan trên Windows hoặc Linux, nếu không muốn nói là nhanh hơn
Các nền tảng khác: Sử dụng CPU + intrinsics để tăng tốc (có thể chậm hơn, chẳng hạn như trên Android hoặc Meta Quest, khi chạy nguyên bản)

Tài nguyên bổ sung

Mua trên Fab
Trang web sản phẩm
Tải bản demo (Windows)
Hướng dẫn video (video cũ)
Hỗ trợ Plugin & Phát triển Tùy chỉnh: [email protected] (các giải pháp phù hợp cho nhóm và tổ chức)

Join our Discord

online · support

Cách cài đặt​

Mô tả cơ bản​

Tài nguyên bổ sung​

Cách cài đặt

Mô tả cơ bản

Tài nguyên bổ sung