Przejdź do głównej zawartości

Przegląd

Dokumentacja Runtime Speech Recognizer

Runtime Speech Recognizer to wieloplatformowy plugin umożliwiający Runtime Speech Recognizer, działający offline. Opiera się na technologii Whisper OpenAI, w szczególności na bibliotece whisper.cpp, i obsługuje wielojęzykowe modele wstępnie wybrane w ustawieniach pluginu.

Jak zainstalować

Przy pierwszym uruchomieniu zainstaluj modele językowe (pojawi się okno dialogowe z prośbą o automatyczne wykonanie tej czynności).

Podstawowy opis

Ten plugin zapewnia Runtime Speech Recognizer przy użyciu zaawansowanych algorytmów opartych na bibliotece whisper.cpp, dostępnej na liberalnej licencji MIT. Dopasowuje przychodzące dane audio, dostarczone jako strumień lub dane wejściowe niestrumieniowe (takie jak plik lub bufor danych audio), do wstępnie wytrenowanych modeli językowych.

Plugin używa różnych metod akceleracji GPU w zależności od platformy:

  • Windows: Używa Vulkan do akceleracji GPU, co znacząco przyspiesza proces rozpoznawania
  • Mac i iOS: Używa Metal do akceleracji GPU, zapewniając wydajność porównywalną z akceleracją Vulkan na Windows, jeśli nie wyższą
  • Inne platformy: Używa CPU + intrinsics do akceleracji (może być wolniej, np. na Androidzie lub Meta Quest, podczas działania natywnego)

Dodatkowe zasoby