Przegląd

Runtime Speech Recognizer to wieloplatformowy plugin umożliwiający rozpoznawanie mowy w czasie rzeczywistym, działający offline. Opiera się na technologii Whisper OpenAI, a konkretnie na bibliotece whisper.cpp i obsługuje wiele modeli językowych wstępnie wybranych w ustawieniach pluginu z możliwością automatycznego wykrywania języka.

Jak zainstalować

Przy pierwszym uruchomieniu zainstaluj modele językowe (pojawi się okno dialogowe z prośbą o automatyczne wykonanie tej czynności).

Podstawowy opis

Ten plugin zapewnia rozpoznawanie mowy w czasie rzeczywistym przy użyciu zaawansowanych algorytmów opartych na bibliotece whisper.cpp, która jest dostępna na liberalnej licencji MIT. Dopasowuje przychodzące dane audio, dostarczone jako strumień lub dane wejściowe niestrumieniowe (takie jak plik lub bufor danych audio), do wstępnie wytrenowanych modeli językowych. Podczas korzystania z modeli wielojęzycznych plugin może automatycznie wykryć mówiony język i dostarczyć tę informację wraz z rozpoznanym tekstem.

Plugin używa różnych metod akceleracji GPU w zależności od platformy:

Windows i Linux: Używa Vulkan do akceleracji GPU, co znacząco przyspiesza proces rozpoznawania
Mac i iOS: Używa Metal do akceleracji GPU, zapewniając wydajność porównywalną z akceleracją Vulkan w Windows lub Linux, jeśli nie szybszą
Inne platformy: Używa CPU + instrinsics do akceleracji (może być wolniej, np. na Androidzie lub Meta Quest, podczas działania natywnego)

Dodatkowe zasoby

Pobierz na Fab
Strona produktu
Pobierz Demo (Windows)
Serwer wsparcia na Discordzie
Samouczek wideo
Wsparcie dla pluginu & Niestandardowy rozwój: [email protected] (spersonalizowane rozwiązania dla zespołów i organizacji)

Jak zainstalować​

Podstawowy opis​

Dodatkowe zasoby​

Jak zainstalować

Podstawowy opis

Dodatkowe zasoby