Saltar al contenido principal

Lista de parámetros de reconocimiento

Estos parámetros solo se pueden configurar mientras el recognizer no está en ejecución.

Esta no es una lista exhaustiva de los parámetros disponibles en Whisper. Aquí solo se exponen los más importantes. Si es necesario, se actualizará esta lista.

Establecer parámetros de reconocimiento

Establece los parámetros para el reconocimiento de voz. Si solo deseas cambiar parámetros específicos, considera utilizar las funciones setter individuales.

Establecer valores predeterminados para streaming

Establece los parámetros predeterminados adecuados para el reconocimiento de voz en streaming.

Establecer valores predeterminados para non-streaming

Establece los parámetros predeterminados adecuados para el reconocimiento de voz non-streaming.

Establecer número de threads

Establece el número de threads a utilizar para el reconocimiento de voz. Configura este valor en 0 para usar el número de núcleos.

Establecer idioma

Establece el idioma a utilizar para el reconocimiento de voz. Debe estar soportado por el language model seleccionado en la configuración del Editor.

Establecer el idioma en Auto disminuirá la precisión y el rendimiento del reconocimiento.

Establecer traducción al inglés

Establece si las palabras reconocidas deben ser traducidas al inglés. Si es true, el language model debe ser multilingüe.

Establecer tamaño de paso

Establece el tamaño de paso en milisegundos. Determina con qué frecuencia se envían datos de audio para el reconocimiento. El valor predeterminado es 5000 ms (5 segundos).

Establecer sin contexto

Establece si se debe usar la transcripción pasada (si existe) como prompt inicial para el decoder.

Establecer segmento único

Establece si se debe forzar la salida de un solo segmento (útil para streaming).

Establecer máximo de tokens

Establece el número máximo de tokens por segmento de texto. Usa 0 para sin límite.

Establecer Speed Up

Establece si se debe acelerar el reconocimiento 2x usando Phase Vocoder. Configúralo en false para mejorar la calidad del output.

Establecer tamaño del audio context

Establece el tamaño del audio context. Configúralo en 0 para mejorar la calidad del output.

Establecer temperature to increase

Establece la temperature to increase al hacer fallback cuando la decodificación no cumple con ninguno de los umbrales a continuación.

Establecer entropy threshold

Establece el entropy threshold. Si el ratio de compresión es mayor que este valor, trata la decodificación como fallida. Similar al "compression_ratio_threshold" de OpenAI.

Establecer suppress blank

Establece si se deben suprimir los espacios en blanco que aparecen en los outputs.

Establecer suppress non speech tokens

Establece si se deben suprimir los non speech tokens que aparecen en los outputs.

Establecer beam size

Establece el número de beams en beam search. Sólo aplicable cuando temperature es cero.

Establecer initial prompt

Establece el initial prompt para la primera ventana. Esto puede ser utilizado para proporcionar contexto al reconocimiento y hacerlo más propenso a predecir correctamente las palabras, por ejemplo, vocabulario personalizado o nombres propios.

Establecer GPU acceleration

Establece si se debe utilizar GPU acceleration para el reconocimiento de voz (solo aplicable en Windows por el momento).

Establecer GPU device ID

Establece el GPU device ID a usar para el reconocimiento de voz. El valor predeterminado es 0. Esto es útil en sistemas con múltiples GPUs para especificar qué GPU debería utilizarse para el proceso de reconocimiento. Si el GPU device ID especificado no es válido, se utilizará el primer índice de dispositivo GPU disponible.