Panoramica

Runtime Speech Recognizer è un plugin multipiattaforma che abilita il riconoscimento vocale in tempo reale e offline. Basato sulla tecnologia Whisper OpenAI, in particolare sulla libreria whisper.cpp, e supporta modelli linguistici multipli pre-selezionati nelle impostazioni del plugin con capacità di rilevamento automatico della lingua.
Come installare
Al primo avvio, installa i modelli linguistici (apparirà una finestra di dialogo che ti chiederà di farlo automaticamente).
Descrizione di base
Questo plugin fornisce il riconoscimento vocale in tempo reale utilizzando algoritmi avanzati basati sulla libreria whisper.cpp, disponibile sotto la licenza permissiva MIT. Confronta i dati audio in arrivo, forniti come input in streaming o non in streaming (come un file o un buffer di dati audio), con modelli linguistici pre-addestrati. Quando si utilizzano modelli multilingue, il plugin può rilevare automaticamente la lingua parlata e fornire queste informazioni insieme al testo riconosciuto.
Il plugin utilizza diversi metodi di accelerazione GPU a seconda della piattaforma:
- Windows: Utilizza Vulkan per l'accelerazione GPU, che accelera significativamente il processo di riconoscimento
- Mac e iOS: Utilizza Metal per l'accelerazione GPU, offrendo prestazioni paragonabili, se non superiori, all'accelerazione Vulkan di Windows
- Altre piattaforme: Utilizza CPU + intrinsics per l'accelerazione (potrebbe essere più lento, come su Android o Meta Quest, quando eseguito nativamente)
Risorse Aggiuntive
- Acquistalo su Fab
- Sito web del prodotto
- Scarica la Demo (Windows)
- Server di supporto Discord
- Video tutorial
- Sviluppo Personalizzato: [email protected] (soluzioni su misura per team e organizzazioni)