Runtime Speech Recognizer
Документация для плагина Runtime Speech Recognizer.
- Получить на Fab
- Скачать демо (Windows)
- Сервер поддержки в Discord
- Видеоурок
- Индивидуальная разработка: [email protected] (индивидуальные решения для команд и организаций)
📄️ Обзор
Runtime Speech Recognizer Documentation
📄️ Как использовать плагин
Плагин Runtime Speech Recognizer предназначен для распознавания слов из входящих аудиоданных. Он использует слегка модифицированную версию whisper.cpp для работы с движком. Чтобы использовать плагин, выполните следующие шаги:
📄️ Как использовать языковые модели
Выбор, загрузка и упаковка моделей
📄️ Список параметров распознавания
Эти параметры могут быть установлены только тогда, когда распознавание не запущено.
📄️ Поддерживаемые языки
Это полный список языков, поддерживаемых доступными языковыми моделями.
📄️ Распознавание команд
Вычисление сходства по Левенштейну
📄️ Минимизация зависаний
Этот гид рассматривает два распространенных источника зависаний в плагине RuntimeSpeechRecognizer и предлагает практические решения для снижения воздействия на производительность.
📄️ Устранение неполадок
Большинство проблем связано с этапом подготовки языковой модели, что может вызвать проблемы в упакованной сборке. А именно, вы можете столкнуться со следующими логами:
📄️ Демонстрационный проект
Упакованный демонстрационный проект для Windows.
📄️ Как улучшить производительность
Платформы Windows используют Vulkan для ускорения работы GPU, что существенно ускоряет процесс распознавания. На других платформах плагин использует CPU + intrinsics для ускорения. Однако вы можете дополнительно улучшить производительность плагина, следуя рекомендациям ниже: