Pular para o conteúdo principal

Como usar o plugin

O Runtime AI Chatbot Integrator fornece duas funcionalidades principais: chat Texto-para-Texto e Texto-para-Fala (TTS). Ambos os recursos seguem um fluxo de trabalho similar:

  1. Registre seu token do provedor de API
  2. Configure as configurações específicas do recurso
  3. Envie solicitações e processe respostas

Registrar Token do Provedor

Antes de enviar qualquer solicitação, registre seu token do provedor de API usando a função RegisterProviderToken.

Registrar Token do Provedor em Blueprint

Funcionalidade de Chat Texto-para-Texto

O plugin suporta dois modos de solicitação de chat para cada provedor:

Solicitações de Chat Não-Streaming

Recupere a resposta completa em uma única chamada.

Enviar Solicitação de Chat OpenAI

Solicitações de Chat em Streaming

Receba fragmentos de resposta em tempo real para uma interação mais dinâmica.

Enviar Solicitação de Chat em Streaming da OpenAI

Funcionalidade Texto para Fala (TTS)

Converta texto em áudio de fala de alta qualidade usando provedores líderes de TTS. O plugin retorna dados de áudio brutos (TArray<uint8>) que você pode processar de acordo com as necessidades do seu projeto.

Embora os exemplos abaixo demonstrem o processamento de áudio para reprodução usando o plugin Runtime Audio Importer (veja a documentação de importação de áudio), o Runtime AI Chatbot Integrator é projetado para ser flexível. O plugin simplesmente retorna os dados de áudio brutos, dando a você liberdade total sobre como processá-los para o seu caso de uso específico, o que pode incluir reprodução de áudio, salvamento em arquivo, processamento de áudio adicional, transmissão para outros sistemas, visualizações personalizadas e muito mais.

Solicitações TTS Não-Streaming

Solicitações TTS não-streaming retornam os dados de áudio completos em uma única resposta após todo o texto ter sido processado. Esta abordagem é adequada para textos mais curtos onde esperar pelo áudio completo não é problemático.

Enviar Solicitação TTS OpenAI

Streaming de Solicitações TTS

O Streaming TTS entrega fragmentos de áudio conforme são gerados, permitindo que você processe dados incrementalmente em vez de esperar que todo o áudio seja sintetizado. Isso reduz significativamente a latência percebida para textos mais longos e permite aplicações em tempo real. O ElevenLabs Streaming TTS também suporta funções avançadas de streaming em fragmentos para cenários de geração de texto dinâmico.

Enviar Solicitação de Streaming TTS da OpenAI

Obtendo Vozes Disponíveis

Alguns provedores de TTS oferecem APIs de listagem de vozes para descobrir vozes disponíveis programaticamente.

Obter Vozes do Google Cloud

Tratamento de Erros

Ao enviar qualquer solicitação, é crucial lidar com possíveis erros verificando o ErrorStatus no seu callback. O ErrorStatus fornece informações sobre quaisquer problemas que possam ocorrer durante a solicitação.

Tratamento de Erros

Cancelando Solicitações

O plugin permite que você cancele tanto solicitações de texto-para-texto quanto TTS enquanto estão em andamento. Isso pode ser útil quando você deseja interromper uma solicitação de longa duração ou alterar o fluxo da conversa dinamicamente.

Cancelar Solicitação

Melhores Práticas

  1. Sempre trate possíveis erros verificando o ErrorStatus em seu callback
  2. Esteja atento aos limites de taxa da API e custos de cada provedor
  3. Use o modo de streaming para conversas longas ou interativas
  4. Considere cancelar solicitações que não são mais necessárias para gerenciar recursos com eficiência
  5. Use TTS com streaming para textos mais longos para reduzir a latência percebida
  6. Para processamento de áudio, o plugin Runtime Audio Importer oferece uma solução conveniente, mas você pode implementar processamento personalizado com base nas necessidades do seu projeto
  7. Ao usar modelos de raciocínio (DeepSeek Reasoner, Grok), trate adequadamente as saídas de raciocínio e conteúdo
  8. Descubra vozes disponíveis usando APIs de listagem de vozes antes de implementar recursos de TTS
  9. Para streaming em blocos do ElevenLabs: Use o modo contínuo quando o texto é gerado incrementalmente (como respostas de IA) e o modo imediato para blocos de texto pré-formados
  10. Configure tempos limite de descarga apropriados para o modo contínuo para equilibrar responsividade com fluxo de fala natural
  11. Escolha tamanhos de bloco ideais e atrasos de envio com base nos requisitos de tempo real da sua aplicação

Solução de Problemas

  • Verifique se suas credenciais de API estão corretas para cada provedor
  • Verifique sua conexão com a internet
  • Certifique-se de que quaisquer bibliotecas de processamento de áudio que você usa (como Runtime Audio Importer) estejam devidamente instaladas ao trabalhar com recursos de TTS
  • Verifique se você está usando o formato de áudio correto ao processar dados de resposta de TTS
  • Para TTS com streaming, certifique-se de que está manipulando os blocos de áudio corretamente
  • Para modelos de raciocínio, certifique-se de que está processando tanto as saídas de raciocínio quanto de conteúdo
  • Verifique a documentação específica do provedor para disponibilidade e capacidades do modelo
  • Para streaming em blocos do ElevenLabs: Certifique-se de chamar FinishChunkedStreaming quando terminar para fechar a sessão adequadamente
  • Para problemas no modo contínuo: Verifique se os limites das frases são detectados adequadamente em seu texto
  • Para aplicações em tempo real: Ajuste os atrasos de envio de blocos e tempos limite de descarga com base em seus requisitos de latência