Tổng quan

Runtime Speech Recognizer là một plugin đa nền tảng cho phép nhận dạng giọng nói ngoại tuyến, thời gian thực. Dựa trên công nghệ Whisper OpenAI, đặc biệt là thư viện whisper.cpp, và hỗ trợ nhiều mô hình ngôn ngữ được chọn trước trong cài đặt của plugin với khả năng tự động phát hiện ngôn ngữ.
Cách cài đặt
Trong lần chạy đầu tiên, hãy cài đặt các mô hình ngôn ngữ (một hộp thoại sẽ xuất hiện yêu cầu bạn thực hiện việc này một cách tự động).
Mô tả cơ bản
Plugin này cung cấp khả năng nhận dạng giọng nói thời gian thực bằng cách sử dụng các thuật toán tiên tiến dựa trên thư viện whisper.cpp, được cấp phép theo giấy phép MIT cho phép. Nó khớp dữ liệu âm thanh đến, được cung cấp dưới dạng luồng hoặc đầu vào không phải luồng (chẳng hạn như tệp hoặc bộ đệm dữ liệu âm thanh), với các mô hình ngôn ngữ đã được huấn luyện trước. Khi sử dụng các mô hình đa ngôn ngữ, plugin có thể tự động phát hiện ngôn ngữ được nói và cung cấp thông tin này cùng với văn bản đã được nhận dạng.
Plugin sử dụng các phương pháp tăng tốc GPU khác nhau tùy thuộc vào nền tảng:
- Windows và Linux: Sử dụng Vulkan để tăng tốc GPU, giúp tăng tốc đáng kể quá trình nhận dạng
- Mac và iOS: Sử dụng Metal để tăng tốc GPU, mang lại hiệu suất tương đương hoặc thậm chí nhanh hơn so với tăng tốc Vulkan trên Windows hoặc Linux
- Các nền tảng khác: Sử dụng CPU + intrinsics để tăng tốc (có thể chậm hơn, chẳng hạn như trên Android hoặc Meta Quest, khi chạy gốc)
Tài nguyên bổ sung
- Mua trên Fab
- Trang web sản phẩm
- Tải xuống bản Demo (Windows)
- Video hướng dẫn (video cũ hơn)
- Hỗ trợ Plugin & Phát triển tùy chỉnh: [email protected] (các giải pháp phù hợp cho nhóm & tổ chức)