Saltar al contenido principal

Lista de parámetros de reconocimiento

Estos parámetros solo se pueden establecer cuando el reconocedor no está en funcionamiento.

Esta no es una lista exhaustiva de parámetros disponibles en Whisper. Solo se exponen aquí los más importantes. Si es necesario, se actualizará esta lista.

Establecer parámetros de reconocimiento

Ajusta los parámetros para el reconocimiento de voz. Si desea cambiar solo parámetros específicos, considere usar las funciones individuales de configuración.

Establecer valores predeterminados de transmisión

Establece los parámetros predeterminados adecuados para el reconocimiento de voz en transmisión.

Establecer valores predeterminados no en transmisión

Establece los parámetros predeterminados adecuados para el reconocimiento de voz no en transmisión.

Establecer número de hilos

Define el número de hilos a utilizar para el reconocimiento de voz. Establezca este valor en 0 para usar el número de núcleos.

Establecer idioma

Establece el idioma a utilizar para el reconocimiento de voz. Debe ser compatible con el modelo de idioma seleccionado en la configuración del Editor.

Establecer el idioma en Auto disminuirá la precisión y el rendimiento del reconocimiento.

Configurar traducción al inglés

Establece si traducir las palabras reconocidas al inglés. Si es verdadero, el modelo de lenguaje debe ser multilingüe.

Establecer tamaño de paso

Define el tamaño del paso en milisegundos. Determina con qué frecuencia enviar los datos de audio para el reconocimiento. El valor predeterminado es 5000 ms (5 segundos).

Establecer sin contexto

Establece si usar la transcripción pasada (si la hay) como solicitud inicial para el decodificador.

Establecer segmento único

Establece si forzar la salida de un solo segmento (útil para streaming).

Establecer número máximo de tokens

Establece el número máximo de tokens por segmento de texto. Use 0 para sin límite.

Establecer aceleración

Establece si acelerar el reconocimiento 2x usando Phase Vocoder. Establézcalo como false para mejorar la calidad del resultado.

Establecer tamaño del contexto de audio

Establece el tamaño del contexto de audio. Establézcalo como 0 para mejorar la calidad del resultado.

Establecer temperatura para aumentar

Establece la temperatura para aumentar cuando el retroceso no cumple con ninguno de los umbrales a continuación.

Establecer umbral de entropía

Define el umbral de entropía. Si la relación de compresión es mayor que este valor, trate la decodificación como fallida. Similar al "compression_ratio_threshold" de OpenAI.

Establecer suprimir en blanco

Define si suprimir espacios en blanco que aparecen en las salidas.

Establecer suprimir tokens no de habla

Define si suprimir tokens no de habla que aparecen en las salidas.

Establecer tamaño de haz

Define el número de haces en la búsqueda de haz. Solo aplicable cuando la temperatura es cero.

Establecer prompt inicial

Establece el prompt inicial para la primera ventana. Esto se puede usar para proporcionar contexto para el reconocimiento y así sea más probable predecir correctamente las palabras, por ejemplo, vocabularios personalizados o nombres propios.

Establecer ID de dispositivo GPU

Define el ID del dispositivo GPU a utilizar para el reconocimiento de voz. El valor predeterminado es 0. Esto es útil para sistemas con múltiples GPUs para especificar cuál debe ser utilizada en el proceso de reconocimiento. Si el ID del dispositivo GPU especificado es inválido, se usará en su lugar el índice del primer dispositivo GPU disponible.