Перейти к основному содержимому

Общий обзор

Документация по Runtime Speech Recognizer

Runtime Speech Recognizer — это кроссплатформенный плагин, обеспечивающий распознавание речи в реальном времени и без подключения к Интернету. Основан на технологии Whisper OpenAI, в частности библиотеке whisper.cpp, и поддерживает несколько языковых моделей, предварительно выбранных в настройках плагина.

Как установить

При первом запуске установите языковые модели (появится диалоговое окно с предложением сделать это автоматически).

Основное описание

Этот плагин предоставляет возможность распознавания речи в реальном времени с использованием передовых алгоритмов, основанных на библиотеке whisper.cpp. Он сопоставляет входящие аудиоданные, предоставляемые в виде потока или неподпотокового ввода (например, файл или буфер аудиоданных), с предварительно обученными языковыми моделями.

На Windows плагин использует Vulkan для ускорения обработки на GPU, что значительно ускоряет процесс распознавания. На других платформах плагин использует CPU + intrinsics для ускорения.