Обзор

Runtime Speech Recognizer — это кроссплатформенный плагин, обеспечивающий распознавание речи в реальном времени без подключения к интернету. Основан на технологии Whisper OpenAI, в частности на библиотеке whisper.cpp, и поддерживает несколько языковых моделей, предустановленных в настройках плагина, с возможностью автоматического определения языка.

Как установить

При первом запуске установите языковые модели (появится диалоговое окно с предложением сделать это автоматически).

Базовое описание

Этот плагин обеспечивает распознавание речи в реальном времени с использованием передовых алгоритмов на основе библиотеки whisper.cpp, доступной под разрешительной лицензией MIT. Он сопоставляет входящие аудиоданные, предоставленные в виде потока или непоточного ввода (например, файла или буфера аудиоданных), с предварительно обученными языковыми моделями. При использовании многоязычных моделей плагин может автоматически определять язык речи и предоставлять эту информацию вместе с распознанным текстом.

Плагин использует различные методы ускорения на GPU в зависимости от платформы:

Windows и Linux: Использует Vulkan для ускорения на GPU, что значительно ускоряет процесс распознавания
Mac и iOS: Использует Metal для ускорения на GPU, обеспечивая производительность, сопоставимую с ускорением на Vulkan в Windows или Linux, если не выше
Другие платформы: Использует CPU + intrinsics для ускорения (может быть медленнее, например, на Android или Meta Quest при нативном запуске)

Дополнительные ресурсы

Получить на Fab
Веб-сайт продукта
Скачать демо (Windows)
Discord сервер поддержки
Видеоурок
Поддержка плагина и кастомная разработка: [email protected] (индивидуальные решения для команд и организаций)

Как установить​

Базовое описание​

Дополнительные ресурсы​

Как установить

Базовое описание

Дополнительные ресурсы