Обзор
Runtime Speech Recognizer — это кроссплатформенный плагин, который обеспечивает распознавание речи в реальном времени в автономном режиме. Основан на Whisper OpenAI technology, в частности, библиотеке whisper.cpp, и поддерживает несколько языковых моделей, предварительно выбранных в настройках плагина.
Как установить
При первом запуске установите языковые модели (появится диалоговое окно с предложением сделать это автоматически).
Основное описание
Этот плагин обеспечивает распознавание речи в реальном времени, используя передовые алгоритмы на базе библиотеки whisper.cpp. Он сопоставляет входящие аудиоданные, предоставленные как потоковые или непотоковые данные (например, файл или буфер аудиоданных), с предварительно обученными языковыми моделями.
На Windows плагин использует Vulkan для GPU-ускорения, что значительно ускоряет процесс распознавания. На других платформах плагин использует CPU + intrinsics для ускорения.
Дополнительные ресурсы
- Получите на Fab
- Скачать демонстрацию (Windows)
- Discord сервер поддержки
- Видеоурок
- Индивидуальная разработка: [email protected] (индивидуальные решения для команд и организаций)