Pular para o conteúdo principal

Guia de Processamento de Áudio

Este guia aborda como configurar diferentes métodos de entrada de áudio para alimentar dados de áudio aos seus geradores de lip sync. Certifique-se de ter concluído o Guia de Configuração antes de prosseguir.

Processamento de Entrada de Áudio

Você precisa configurar um método para processar a entrada de áudio. Existem várias maneiras de fazer isso, dependendo da sua fonte de áudio.

Esta abordagem realiza lip sync em tempo real enquanto fala no microfone:

  1. Crie um Capturable Sound Wave usando Runtime Audio Importer
  2. Antes de começar a capturar áudio, vincule-se ao delegate OnPopulateAudioData
  3. Na função vinculada, chame ProcessAudioData do seu Runtime Viseme Generator
  4. Inicie a captura de áudio do microfone

Nós copiáveis.

Lip Sync Durante Captura de Áudio

Dicas de Desempenho de Processamento

  • Tamanho do Chunk: Aumentar a opção de configuração ProcessingChunkSize (por exemplo, para 320, 480 ou 640 amostras) pode melhorar notavelmente a latência com impacto mínimo na qualidade ou capacidade de resposta.

  • Tipo de Modelo: Ao usar modelos Realistas, mudar para o tipo de modelo Altamente Otimizado (selecionado por padrão) pode melhorar o desempenho. Observe que o modelo original pode produzir qualidade ligeiramente melhor, particularmente com áudio ruidoso.

  • Gerenciamento de Buffer: O modelo com humor processa áudio em quadros de 320 amostras (20ms a 16kHz). Certifique-se de que o tempo da sua entrada de áudio esteja alinhado com isso para um desempenho ideal.

  • Recriação do Gerador: Para uma operação confiável com modelos Realistas, recrie o gerador cada vez que quiser alimentar novos dados de áudio após um período de inatividade. Consulte Recriação do Gerador na seção de Solução de Problemas para a explicação.

Próximos Passos

Depois de configurar o processamento de áudio, você pode querer:

  • Aprender sobre Opções de Configuração para ajustar o comportamento do seu lip sync
  • Adicionar animação de risada para maior expressividade
  • Combinar lip sync com animações faciais existentes usando as técnicas de camadas descritas no guia de Configuração