Перейти к основному содержимому

Обзор

Документация Runtime Speech Recognizer

Runtime Speech Recognizer — это кроссплатформенный плагин, обеспечивающий распознавание речи в реальном времени без подключения к интернету. Основан на технологии Whisper OpenAI, в частности на библиотеке whisper.cpp, и поддерживает несколько языковых моделей, предустановленных в настройках плагина.

Как установить

При первом запуске установите языковые модели (появится диалоговое окно с автоматическим предложением это сделать).

Базовое описание

Этот плагин предоставляет распознавание речи в реальном времени с использованием передовых алгоритмов на основе библиотеки whisper.cpp, доступной под либеральной лицензией MIT. Он сопоставляет входящие аудиоданные, предоставленные в виде потока или не потокового ввода (например, файла или буфера аудиоданных), с предварительно обученными языковыми моделями.

Плагин использует различные методы ускорения на GPU в зависимости от платформы:

  • Windows: Использует Vulkan для ускорения на GPU, что значительно ускоряет процесс распознавания
  • Mac и iOS: Использует Metal для ускорения на GPU, обеспечивая производительность, сопоставимую с ускорением на Windows через Vulkan, если не выше
  • Другие платформы: Использует CPU + intrinsics для ускорения (может работать медленнее, например, на Android или Meta Quest при нативном запуске)

Дополнительные ресурсы