Pular para o conteúdo principal

Guia de Processamento de Áudio

Este guia aborda como configurar diferentes métodos de entrada de áudio para alimentar dados de áudio para seus geradores de lip sync. Certifique-se de ter concluído o Guia de Configuração antes de prosseguir.

Processamento de Entrada de Áudio

Você precisa configurar um método para processar a entrada de áudio. Existem várias maneiras de fazer isso, dependendo da sua fonte de áudio.

Esta abordagem executa lip sync em tempo real enquanto fala no microfone:

  1. Crie uma Capturable Sound Wave usando Runtime Audio Importer
  2. Antes de começar a capturar áudio, vincule-se ao delegado OnPopulateAudioData
  3. Na função vinculada, chame ProcessAudioData do seu Runtime Viseme Generator
  4. Comece a capturar áudio do microfone

Nós copiáveis.

Lip Sync Durante Captura de Áudio

Dicas de Desempenho de Processamento

  • Tamanho do Chunk: Se você quiser processar dados de áudio em chunks menores para uma sincronização labial mais responsiva, ajuste o cálculo na função SetNumSamplesPerChunk. Por exemplo, dividir a taxa de amostragem por 150 (streaming a cada ~6,67 ms) em vez de 100 (streaming a cada 10 ms) fornecerá atualizações de sincronização labial mais frequentes.

  • Gerenciamento de Buffer: O modelo com humor processa áudio em quadros de 320 amostras (20ms a 16kHz). Certifique-se de que o tempo de entrada de áudio esteja alinhado com isso para um desempenho ideal.

  • Recriação do Gerador: Para uma operação confiável com modelos Realistas, recrie o gerador sempre que quiser alimentar novos dados de áudio após um período de inatividade.

Próximos Passos

Depois de configurar o processamento de áudio, você pode querer:

  • Aprender sobre Opções de configuração para ajustar o comportamento da sua sincronização labial
  • Adicionar animação de riso para maior expressividade
  • Combinar sincronização labial com animações faciais existentes usando as técnicas de sobreposição descritas no guia de Configuração