Pular para o conteúdo principal

Lista de parâmetros de reconhecimento

Esses parâmetros só podem ser ajustados enquanto o reconhecedor não está em execução.

Esta não é uma lista exaustiva dos parâmetros disponíveis no Whisper. Apenas os mais importantes estão expostos aqui. Se necessário, esta lista será atualizada.

Definir parâmetros de reconhecimento

Define os parâmetros para reconhecimento de fala. Se você quiser alterar apenas parâmetros específicos, considere usar as funções individuais de definição.

Definir padrões para streaming

Define os parâmetros padrão adequados para reconhecimento de fala em streaming.

Definir padrões para não streaming

Define os parâmetros padrão adequados para reconhecimento de fala não em streaming.

Definir número de threads

Define o número de threads a serem usadas para o reconhecimento de fala. Defina este valor como 0 para usar a quantidade de núcleos.

Definir idioma

Define o idioma a ser usado para o reconhecimento de fala. Deve ser suportado pelo modelo de idioma selecionado nas configurações do Editor.

Definir o idioma como Auto irá diminuir a precisão e o desempenho do reconhecimento.

Definir tradução para inglês

Define se deve traduzir as palavras reconhecidas para o inglês. Se verdadeiro, o modelo de idioma precisa ser multilíngue.

Definir tamanho do passo

Define o tamanho do passo em milissegundos. Determina com que frequência enviar os dados de áudio para reconhecimento. O valor padrão é 5000 ms (5 segundos).

Definir sem contexto

Define se deve usar a transcrição passada (se houver) como prompt inicial para o decodificador.

Definir segmento único

Define se deve forçar a saída de segmento único (útil para streaming).

Definir número máximo de tokens

Define o número máximo de tokens por segmento de texto. Use 0 para sem limite.

Definir aceleração

Define se deve acelerar o reconhecimento em 2x usando Phase Vocoder. Defina como false para melhorar a qualidade da saída.

Definir tamanho do contexto de áudio

Define o tamanho do contexto de áudio. Defina como 0 para melhorar a qualidade da saída.

Definir temperatura para aumento

Define a temperatura para aumentar ao voltar quando o decodificador não atender a nenhum dos limites descritos abaixo.

Definir limiar de entropia

Define o limiar de entropia. Se a razão de compressão for maior que esse valor, a decodificação será considerada com falha. Semelhante ao "compression_ratio_threshold" do OpenAI.

Definir supressão de espaços em branco

Define se deve suprimir espaços em branco ao exibir os resultados.

Definir supressão de tokens não falados

Define se deve suprimir tokens não falados ao exibir os resultados.

Definir tamanho do feixe

Define o número de feixes (beams) na busca em feixe. Só se aplica quando a temperatura é zero.

Definir prompt inicial

Define o prompt inicial para a primeira janela. Isso pode ser usado para fornecer contexto ao reconhecimento, tornando mais provável a predição correta das palavras, por exemplo, vocabulários customizados ou nomes próprios.

Definir aceleração por GPU

Define se deve usar aceleração por GPU para reconhecimento de fala (aplicável apenas no Windows no momento).

Definir ID do dispositivo GPU

Define o ID do dispositivo GPU a ser usado para o reconhecimento de fala. O valor padrão é 0. Isso é útil para sistemas com múltiplas GPUs, permitindo especificar qual GPU deve ser usada para o processo de reconhecimento. Se o ID de dispositivo GPU especificado for inválido, será usado o primeiro índice de GPU disponível.