Saltar al contenido principal

Cómo usar el plugin

El Runtime AI Chatbot Integrator proporciona dos funcionalidades principales: chat de Texto-a-Texto y Texto-a-Voz (TTS). Ambas características siguen un flujo de trabajo similar:

  1. Registrar tu token del proveedor de API
  2. Configurar ajustes específicos de la característica
  3. Enviar solicitudes y procesar respuestas

Registrar Token del Proveedor

Antes de enviar cualquier solicitud, registra tu token del proveedor de API usando la función RegisterProviderToken.

Registrar Token del Proveedor en Blueprint

Funcionalidad de Chat de Texto a Texto

El complemento admite dos modos de solicitud de chat para cada proveedor:

Solicitudes de Chat Sin Streaming

Recupera la respuesta completa en una sola llamada.

Enviar Solicitud de Chat de OpenAI

Solicitudes de Chat en Streaming

Recibe fragmentos de respuesta en tiempo real para una interacción más dinámica.

Enviar Solicitud de Chat en Streaming de OpenAI

Funcionalidad de Texto a Voz (TTS)

Convierte texto en audio de voz de alta calidad utilizando los principales proveedores de TTS. El plugin devuelve datos de audio sin procesar (TArray<uint8>) que puedes procesar según las necesidades de tu proyecto.

Si bien los ejemplos a continuación demuestran el procesamiento de audio para reproducción utilizando el plugin Runtime Audio Importer (consulta la documentación de importación de audio), el Runtime AI Chatbot Integrator está diseñado para ser flexible. El plugin simplemente devuelve los datos de audio sin procesar, dándote total libertad en cómo procesarlos para tu caso de uso específico, lo que podría incluir reproducción de audio, guardar en archivo, procesamiento de audio adicional, transmisión a otros sistemas, visualizaciones personalizadas y más.

Solicitudes TTS No Continuas (Non-Streaming)

Las solicitudes TTS no continuas devuelven los datos de audio completos en una única respuesta después de que todo el texto ha sido procesado. Este enfoque es adecuado para textos más cortos donde esperar el audio completo no es problemático.

Enviar Solicitud TTS de OpenAI

Solicitudes de TTS en Streaming

El TTS en streaming entrega fragmentos de audio a medida que se generan, permitiéndote procesar los datos de forma incremental en lugar de esperar a que se sintetice todo el audio. Esto reduce significativamente la latencia percibida para textos más largos y permite aplicaciones en tiempo real. El TTS en Streaming de ElevenLabs también admite funciones avanzadas de streaming fragmentado para escenarios de generación de texto dinámico.

Enviar Solicitud de TTS en Streaming de OpenAI

Obteniendo Voces Disponibles

Algunos proveedores de TTS ofrecen APIs de listado de voces para descubrir voces disponibles mediante programación.

Obtener Voces de Google Cloud

Manejo de Errores

Al enviar cualquier solicitud, es crucial manejar los posibles errores verificando el ErrorStatus en su callback. El ErrorStatus proporciona información sobre cualquier problema que pueda ocurrir durante la solicitud.

Manejo de Errores

Cancelación de Solicitudes

El complemento te permite cancelar tanto las solicitudes de texto a texto como las de TTS mientras están en progreso. Esto puede ser útil cuando deseas interrumpir una solicitud de larga duración o cambiar el flujo de la conversación dinámicamente.

Cancelar Solicitud

Mejores Prácticas

  1. Maneje siempre los errores potenciales verificando el ErrorStatus en su callback
  2. Sea consciente de los límites de tasa de la API y los costos para cada proveedor
  3. Utilice el modo de streaming para conversaciones largas o interactivas
  4. Considere cancelar solicitudes que ya no sean necesarias para gestionar los recursos de manera eficiente
  5. Utilice TTS de streaming para textos más largos para reducir la latencia percibida
  6. Para el procesamiento de audio, el complemento Runtime Audio Importer ofrece una solución conveniente, pero puede implementar un procesamiento personalizado según las necesidades de su proyecto
  7. Al usar modelos de razonamiento (DeepSeek Reasoner, Grok), maneje tanto las salidas de razonamiento como de contenido apropiadamente
  8. Descubra las voces disponibles utilizando las API de listado de voces antes de implementar funciones TTS
  9. Para el streaming fragmentado de ElevenLabs: Utilice el modo continuo cuando el texto se genere de manera incremental (como respuestas de IA) y el modo inmediato para fragmentos de texto preformados
  10. Configure tiempos de espera de vaciado apropiados para el modo continuo para equilibrar la capacidad de respuesta con el flujo natural del habla
  11. Elija tamaños de fragmento óptimos y retrasos de envío basados en los requisitos de tiempo real de su aplicación

Resolución de Problemas

  • Verifique que sus credenciales de API sean correctas para cada proveedor
  • Verifique su conexión a internet
  • Asegúrese de que cualquier biblioteca de procesamiento de audio que utilice (como Runtime Audio Importer) esté correctamente instalada cuando trabaje con funciones TTS
  • Verifique que esté utilizando el formato de audio correcto al procesar los datos de respuesta TTS
  • Para TTS de streaming, asegúrese de que está manejando los fragmentos de audio correctamente
  • Para modelos de razonamiento, asegúrese de que está procesando tanto las salidas de razonamiento como de contenido
  • Consulte la documentación específica del proveedor para conocer la disponibilidad y capacidades del modelo
  • Para el streaming fragmentado de ElevenLabs: Asegúrese de llamar a FinishChunkedStreaming cuando termine para cerrar la sesión correctamente
  • Para problemas del modo continuo: Verifique que los límites de las oraciones se detecten correctamente en su texto
  • Para aplicaciones en tiempo real: Ajuste los retrasos de envío de fragmentos y los tiempos de espera de vaciado según sus requisitos de latencia