Перейти к основному содержимому

Обзор

Runtime Speech Recognizer Documentation

Runtime Speech Recognizer — это кроссплатформенный плагин, обеспечивающий Runtime Speech Recognizer без подключения к интернету. Основан на технологии Whisper OpenAI, в частности на библиотеке whisper.cpp, и поддерживает несколько языковых моделей, предустановленных в настройках плагина.

Установка

При первом запуске необходимо установить языковые модели (всплывающее окно запросит это автоматически).

Основное описание

Этот плагин предоставляет Runtime Speech Recognizer с использованием продвинутых алгоритмов на основе библиотеки whisper.cpp. Он сопоставляет входящие аудиоданные, предоставленные в виде потока или не потокового ввода (например, файла или буфера аудиоданных), с предобученными языковыми моделями.

На Windows плагин использует Vulkan для ускорения на GPU, что значительно ускоряет процесс распознавания. На других платформах плагин использует CPU + intrinsics для ускорения.

Дополнительные ресурсы