Lista de parámetros de reconocimiento
Estos parámetros solo se pueden establecer cuando el reconocedor no está en funcionamiento.
Esta no es una lista exhaustiva de parámetros disponibles en Whisper. Solo se exponen aquí los más importantes. Si es necesario, se actualizará esta lista.
Establecer parámetros de reconocimiento
Ajusta los parámetros para el reconocimiento de voz. Si desea cambiar solo parámetros específicos, considere usar las funciones individuales de configuración.
Establecer valores predeterminados de transmisión
Establece los parámetros predeterminados adecuados para el reconocimiento de voz en transmisión.
Establecer valores predeterminados no en transmisión
Establece los parámetros predeterminados adecuados para el reconocimiento de voz no en transmisión.
Establecer número de hilos
Define el número de hilos a utilizar para el reconocimiento de voz. Establezca este valor en 0 para usar el número de núcleos.
Establecer idioma
Establece el idioma a utilizar para el reconocimiento de voz. Debe ser compatible con el modelo de idioma seleccionado en la configuración del Editor.
Establecer el idioma en Auto disminuirá la precisión y el rendimiento del reconocimiento.
Configurar traducción al inglés
Establece si traducir las palabras reconocidas al inglés. Si es verdadero, el modelo de lenguaje debe ser multilingüe.
Establecer tamaño de paso
Define el tamaño del paso en milisegundos. Determina con qué frecuencia enviar los datos de audio para el reconocimiento. El valor predeterminado es 5000 ms (5 segundos).
Establecer sin contexto
Establece si usar la transcripción pasada (si la hay) como solicitud inicial para el decodificador.
Establecer segmento único
Establece si forzar la salida de un solo segmento (útil para streaming).
Establecer número máximo de tokens
Establece el número máximo de tokens por segmento de texto. Use 0 para sin límite.
Establecer aceleración
Establece si acelerar el reconocimiento 2x usando Phase Vocoder. Establézcalo como false
para mejorar la calidad del resultado.
Establecer tamaño del contexto de audio
Establece el tamaño del contexto de audio. Establézcalo como 0
para mejorar la calidad del resultado.
Establecer temperatura para aumentar
Establece la temperatura para aumentar cuando el retroceso no cumple con ninguno de los umbrales a continuación.
Establecer umbral de entropía
Define el umbral de entropía. Si la relación de compresión es mayor que este valor, trate la decodificación como fallida. Similar al "compression_ratio_threshold" de OpenAI.
Establecer suprimir en blanco
Define si suprimir espacios en blanco que aparecen en las salidas.
Establecer suprimir tokens no de habla
Define si suprimir tokens no de habla que aparecen en las salidas.
Establecer tamaño de haz
Define el número de haces en la búsqueda de haz. Solo aplicable cuando la temperatura es cero.
Establecer prompt inicial
Establece el prompt inicial para la primera ventana. Esto se puede usar para proporcionar contexto para el reconocimiento y así sea más probable predecir correctamente las palabras, por ejemplo, vocabularios personalizados o nombres propios.
Establecer ID de dispositivo GPU
Define el ID del dispositivo GPU a utilizar para el reconocimiento de voz. El valor predeterminado es 0. Esto es útil para sistemas con múltiples GPUs para especificar cuál debe ser utilizada en el proceso de reconocimiento. Si el ID del dispositivo GPU especificado es inválido, se usará en su lugar el índice del primer dispositivo GPU disponible.