Обзор

Runtime Speech Recognizer — это кроссплатформенный плагин, который обеспечивает распознавание речи в реальном времени без подключения к интернету. Основанный на технологии Whisper от OpenAI, в частности на библиотеке whisper.cpp, он поддерживает несколько языковых моделей, предварительно выбранных в настройках плагина, с возможностью автоматического определения языка.
Как установить
При первом запуске установите языковые модели (появится диалоговое окно с предложением сделать это автоматически).
Базовое описание
Этот плагин предоставляет распознавание речи в реальном времени с использованием передовых алгоритмов на основе библиотеки whisper.cpp, которая распространяется под разрешительной лицензией MIT. Он сопоставляет входящие аудиоданные, предоставленные в виде потока или не потокового ввода (например, файла или буфера аудиоданных), с предварительно обученными языковыми моделями. При использовании многоязычных моделей плагин может автоматически определять язык речи и предоставлять эту информацию вместе с распознанным текстом.
Плагин использует различные методы ускорения на GPU в зависимости от платформы:
- Windows: Использует Vulkan для ускорения на GPU, что значительно ускоряет процесс распознавания
- Mac и iOS: Использует Metal для ускорения на GPU, обеспечивая производительность, сопоставимую с ускорением на Windows через Vulkan, если не выше
- Другие платформы: Использует CPU + intrinsics для ускорения (может быть медленнее, например, на Android или Meta Quest при нативном запуске)
Дополнительные ресурсы
- Получить на Fab
- Веб-сайт продукта
- Скачать демо (Windows)
- Discord сервер поддержки
- Видеоурок
- Кастомная разработка: [email protected] (индивидуальные решения для команд и организаций)