Panoramica

Runtime Speech Recognizer è un plugin multipiattaforma che abilita il riconoscimento vocale in tempo reale e offline. Basato sulla tecnologia Whisper OpenAI, in particolare sulla libreria whisper.cpp, supporta modelli linguistici multipli pre-selezionati nelle impostazioni del plugin con capacità di rilevamento automatico della lingua.

Come installare

Al primo avvio, installare i modelli linguistici (apparirà una finestra di dialogo che chiederà di farlo automaticamente).

Descrizione di base

Questo plugin fornisce il riconoscimento vocale in tempo reale utilizzando algoritmi avanzati basati sulla libreria whisper.cpp, disponibile sotto la licenza permissiva MIT. Confronta i dati audio in arrivo, forniti come input in streaming o non in streaming (come un file o un buffer di dati audio), con modelli linguistici pre-addestrati. Quando si utilizzano modelli multilingue, il plugin può rilevare automaticamente la lingua parlata e fornire queste informazioni insieme al testo riconosciuto.

Il plugin utilizza diversi metodi di accelerazione GPU a seconda della piattaforma:

Windows e Linux: Utilizza Vulkan per l'accelerazione GPU, che accelera significativamente il processo di riconoscimento
Mac e iOS: Utilizza Metal per l'accelerazione GPU, offrendo prestazioni paragonabili, se non superiori, all'accelerazione Vulkan di Windows o Linux
Altre piattaforme: Utilizza CPU + intrinsics per l'accelerazione (può essere più lento, come su Android o Meta Quest, quando eseguito in modalità nativa)

Risorse Aggiuntive

Acquistalo su Fab
Sito web del prodotto
Scarica la Demo (Windows)
Server di supporto Discord
Video tutorial
Supporto Plugin & Sviluppo Personalizzato: [email protected] (soluzioni su misura per team e organizzazioni)

Come installare​

Descrizione di base​

Risorse Aggiuntive​

Come installare

Descrizione di base

Risorse Aggiuntive