Aller au contenu principal

Liste des paramètres de reconnaissance

Ces paramètres ne peuvent être définis que lorsque le recognizer n’est pas en cours d’exécution.

Ceci n’est pas une liste exhaustive des paramètres disponibles dans Whisper. Seuls les paramètres les plus importants sont exposés ici. Si nécessaire, cette liste sera mise à jour.

Définir les paramètres de reconnaissance

Définit les paramètres pour la reconnaissance vocale. Si vous souhaitez modifier uniquement certains paramètres, envisagez d’utiliser les fonctions de réglage individuelles.

Définir les paramètres par défaut pour le streaming

Définit les paramètres par défaut adaptés à la reconnaissance vocale en streaming.

Définir les paramètres par défaut pour le non-streaming

Définit les paramètres par défaut adaptés à la reconnaissance vocale hors streaming.

Définir le nombre de threads

Définit le nombre de threads à utiliser pour la reconnaissance vocale. Définissez cette valeur à 0 pour utiliser le nombre de cœurs.

Définir la langue

Définit la langue à utiliser pour la reconnaissance vocale. Doit être prise en charge par le modèle de langue sélectionné dans les paramètres de l’Editor.

Définir la langue sur Auto diminuera la précision et les performances de la reconnaissance.

Définir la traduction vers l’anglais

Définit si les mots reconnus doivent être traduits en anglais. Si activé, le modèle de langue doit être multilingue.

Définir la taille de pas (step size)

Définit la taille du pas en millisecondes. Détermine la fréquence d’envoi des données audio pour la reconnaissance. La valeur par défaut est de 5000 ms (5 secondes).

Définir sans contexte (No Context)

Définit si la transcription précédente (s’il y en a) est utilisée comme prompt initial pour le décodeur.

Définir le segment unique (Single Segment)

Définit si la sortie doit être forcée en segment unique (utile pour le streaming).

Définir le nombre maximal de tokens

Définit le nombre maximal de tokens par segment de texte. Utiliser 0 pour aucune limite.

Définir l’accélération (Speed Up)

Définit si la reconnaissance doit être accélérée par 2x à l’aide du Phase Vocoder. Définir sur false afin d'améliorer la qualité de la sortie.

Définir la taille du contexte audio (Audio Context Size)

Définit la taille du contexte audio. Définir sur 0 pour améliorer la qualité de la sortie.

Définir la température d’augmentation (Temperature To Increase)

Définit la température à augmenter lors d’un fallback si le décodage échoue à satisfaire l’un des seuils ci-dessous.

Définir le seuil d'entropie (Entropy Threshold)

Définit le seuil d’entropie. Si le ratio de compression est supérieur à cette valeur, le décodage est considéré comme un échec. Similaire au "compression_ratio_threshold" d’OpenAI.

Définir la suppression des espaces vides (Suppress Blank)

Définit si les blancs affichés dans la sortie doivent être supprimés.

Définir la suppression des tokens non vocaux (Suppress Non Speech Tokens)

Définit si les tokens non vocaux affichés dans la sortie doivent être supprimés.

Définir la taille du faisceau (Beam Size)

Définit le nombre de beams dans la recherche par faisceaux. Applicable uniquement lorsque la température est égale à zéro.

Définir le prompt initial (Initial Prompt)

Définit le prompt initial pour la première fenêtre. Peut être utilisé pour fournir du contexte afin d’augmenter les chances de prédire correctement des mots, ex : vocabulaires personnalisés ou noms propres.

Définir l’accélération GPU (GPU Acceleration)

Définit si l’accélération GPU doit être utilisée pour la reconnaissance vocale (applicable uniquement sous Windows pour le moment).

Définir l’ID du périphérique GPU (GPU Device ID)

Définit l’ID du périphérique GPU à utiliser pour la reconnaissance vocale. La valeur par défaut est 0. Ceci est utile pour les systèmes équipés de plusieurs GPU afin de spécifier quel GPU doit être utilisé pour le processus de reconnaissance. Si l’ID du GPU spécifié est invalide, l’index du premier GPU disponible sera utilisé à la place.