Saltar al contenido principal

Lista de parámetros de reconocimiento

Estos parámetros solo se pueden establecer mientras el reconocedor no está en ejecución.

Esta no es una lista exhaustiva de los parámetros disponibles en Whisper. Solo se exponen aquí los más importantes. Si es necesario, esta lista se actualizará.

Establecer Parámetros de Reconocimiento

Establece los parámetros para el reconocimiento de voz. Si deseas cambiar solo parámetros específicos, considera usar las funciones de establecimiento individuales.

Establecer Valores Predeterminados de Transmisión

Establece los parámetros predeterminados adecuados para el reconocimiento de voz en transmisión.

Establecer Valores Predeterminados Sin Transmisión

Establece los parámetros predeterminados adecuados para el reconocimiento de voz sin transmisión.

Establecer Número de Hilos

Establece el número de hilos a utilizar para el reconocimiento de voz. Establece este valor en 0 para usar el número de núcleos.

Establecer Idioma

Establece el idioma a utilizar para el reconocimiento de voz. Debe ser compatible con el modelo de idioma seleccionado en la configuración del Editor.

Configurar el idioma en Automático disminuirá la precisión y el rendimiento del reconocimiento.

Establecer Traducción al Inglés

Establece si traducir las palabras reconocidas al inglés. Si es verdadero, el modelo de idioma debe ser multilingüe.

Establecer Tamaño del Paso

Establece el tamaño del paso en milisegundos. Determina la frecuencia de envío de datos de audio para reconocimiento. El valor predeterminado es 5000 ms (5 segundos).

Establecer Sin Contexto

Establece si usar una transcripción previa (si existe) como indicación inicial para el decodificador.

Establecer Segmento Único

Establece si forzar un único segmento de salida (útil para transmisión).

Establecer Máximo de Tokens

Establece el número máximo de tokens por segmento de texto. Usa 0 para no tener límite.

Establecer Acelerar

Establece si acelerar el reconocimiento por 2x usando Phase Vocoder. Configúralo en false para mejorar la calidad del resultado.

Establecer Tamaño del Contexto de Audio

Establece el tamaño del contexto de audio. Configúralo en 0 para mejorar la calidad del resultado.

Establecer Temperatura para Aumentar

Establece la temperatura para aumentar al retroceder cuando la decodificación no cumple con ninguno de los umbrales siguientes.

Establecer Umbral de Entropía

Establece el umbral de entropía. Si la relación de compresión es mayor que este valor, trata la decodificación como fallida. Similar al "compression_ratio_threshold" de OpenAI.

Establecer Suprimir Blanco

Establece si suprimir los espacios en blanco que aparecen en las salidas.

Establecer Suprimir Tokens de No Voz

Establece si suprimir tokens de no voz que aparecen en las salidas.

Establecer Tamaño del Haz

Establece el número de haces en búsqueda de haz. Solo aplicable cuando la temperatura es cero.

Establecer Indicación Inicial

Establece la indicación inicial para la primera ventana. Esto se puede usar para proporcionar contexto al reconocimiento y hacerlo más propenso a predecir las palabras correctamente, por ejemplo, vocabularios personalizados o nombres propios.