Lista de parâmetros de reconhecimento
Esses parâmetros só podem ser ajustados enquanto o reconhecedor não está em execução.
Esta não é uma lista exaustiva dos parâmetros disponíveis no Whisper. Apenas os mais importantes estão expostos aqui. Se necessário, esta lista será atualizada.
Definir parâmetros de reconhecimento
Define os parâmetros para reconhecimento de fala. Se você quiser alterar apenas parâmetros específicos, considere usar as funções individuais de definição.
Definir padrões para streaming
Define os parâmetros padrão adequados para reconhecimento de fala em streaming.
Definir padrões para não streaming
Define os parâmetros padrão adequados para reconhecimento de fala não em streaming.
Definir número de threads
Define o número de threads a serem usadas para o reconhecimento de fala. Defina este valor como 0 para usar a quantidade de núcleos.
Definir idioma
Define o idioma a ser usado para o reconhecimento de fala. Deve ser suportado pelo modelo de idioma selecionado nas configurações do Editor.
Definir o idioma como Auto irá diminuir a precisão e o desempenho do reconhecimento.
Definir tradução para inglês
Define se deve traduzir as palavras reconhecidas para o inglês. Se verdadeiro, o modelo de idioma precisa ser multilíngue.
Definir tamanho do passo
Define o tamanho do passo em milissegundos. Determina com que frequência enviar os dados de áudio para reconhecimento. O valor padrão é 5000 ms (5 segundos).
Definir sem contexto
Define se deve usar a transcrição passada (se houver) como prompt inicial para o decodificador.
Definir segmento único
Define se deve forçar a saída de segmento único (útil para streaming).
Definir número máximo de tokens
Define o número máximo de tokens por segmento de texto. Use 0 para sem limite.
Definir aceleração
Define se deve acelerar o reconhecimento em 2x usando Phase Vocoder. Defina como false
para melhorar a qualidade da saída.
Definir tamanho do contexto de áudio
Define o tamanho do contexto de áudio. Defina como 0
para melhorar a qualidade da saída.
Definir temperatura para aumento
Define a temperatura para aumentar ao voltar quando o decodificador não atender a nenhum dos limites descritos abaixo.
Definir limiar de entropia
Define o limiar de entropia. Se a razão de compressão for maior que esse valor, a decodificação será considerada com falha. Semelhante ao "compression_ratio_threshold" do OpenAI.
Definir supressão de espaços em branco
Define se deve suprimir espaços em branco ao exibir os resultados.
Definir supressão de tokens não falados
Define se deve suprimir tokens não falados ao exibir os resultados.
Definir tamanho do feixe
Define o número de feixes (beams) na busca em feixe. Só se aplica quando a temperatura é zero.
Definir prompt inicial
Define o prompt inicial para a primeira janela. Isso pode ser usado para fornecer contexto ao reconhecimento, tornando mais provável a predição correta das palavras, por exemplo, vocabulários customizados ou nomes próprios.
Definir aceleração por GPU
Define se deve usar aceleração por GPU para reconhecimento de fala (aplicável apenas no Windows no momento).
Definir ID do dispositivo GPU
Define o ID do dispositivo GPU a ser usado para o reconhecimento de fala. O valor padrão é 0. Isso é útil para sistemas com múltiplas GPUs, permitindo especificar qual GPU deve ser usada para o processo de reconhecimento. Se o ID de dispositivo GPU especificado for inválido, será usado o primeiro índice de GPU disponível.