Перейти к основному содержимому

Обзор

Runtime Speech Recognizer Documentation

Runtime Speech Recognizer — это кроссплатформенный плагин, который обеспечивает распознавание речи в реальном времени в автономном режиме. Основан на Whisper OpenAI technology, в частности, библиотеке whisper.cpp, и поддерживает несколько языковых моделей, предварительно выбранных в настройках плагина.

Как установить

При первом запуске установите языковые модели (появится диалоговое окно с предложением сделать это автоматически).

Основное описание

Этот плагин обеспечивает распознавание речи в реальном времени, используя передовые алгоритмы на базе библиотеки whisper.cpp. Он сопоставляет входящие аудиоданные, предоставленные как потоковые или непотоковые данные (например, файл или буфер аудиоданных), с предварительно обученными языковыми моделями.

На Windows плагин использует Vulkan для GPU-ускорения, что значительно ускоряет процесс распознавания. На других платформах плагин использует CPU + intrinsics для ускорения.

Дополнительные ресурсы