Saltar al contenido principal

Cómo usar el plugin

El Runtime AI Chatbot Integrator proporciona dos funcionalidades principales: chat de Texto-a-Texto y Texto-a-Voz (TTS). Ambas características siguen un flujo de trabajo similar:

  1. Registrar el token de tu proveedor de API
  2. Configurar los ajustes específicos de la función
  3. Enviar solicitudes y procesar respuestas

Registrar Token del Proveedor

Antes de enviar cualquier solicitud, registra tu token del proveedor de API usando la función RegisterProviderToken.

Registrar Token del Proveedor en Blueprint

Funcionalidad de Chat de Texto a Texto

El complemento admite dos modos de solicitud de chat para cada proveedor:

Solicitudes de Chat No Continuas (Non-Streaming)

Recupera la respuesta completa en una sola llamada.

Enviar Solicitud de Chat de OpenAI

Solicitudes de Chat en Streaming

Recibe fragmentos de respuesta en tiempo real para una interacción más dinámica.

Enviar Solicitud de Chat en Streaming de OpenAI

Funcionalidad de Texto a Voz (TTS)

Convierte texto en audio de voz de alta calidad utilizando proveedores líderes de TTS. El plugin devuelve datos de audio sin procesar (TArray<uint8>) que puedes procesar según las necesidades de tu proyecto.

Si bien los ejemplos a continuación demuestran el procesamiento de audio para reproducción utilizando el plugin Runtime Audio Importer (consulta la documentación de importación de audio), el Runtime AI Chatbot Integrator está diseñado para ser flexible. El plugin simplemente devuelve los datos de audio sin procesar, dándote total libertad en cómo procesarlos para tu caso de uso específico, lo que podría incluir reproducción de audio, guardar en archivo, procesamiento de audio adicional, transmisión a otros sistemas, visualizaciones personalizadas y más.

Solicitudes TTS No-Streaming

Las solicitudes TTS no-streaming devuelven los datos de audio completos en una sola respuesta después de que se haya procesado todo el texto. Este enfoque es adecuado para textos más cortos donde esperar el audio completo no es problemático.

Send OpenAI TTS Request

Streaming de Solicitudes TTS

El streaming TTS entrega fragmentos de audio a medida que se generan, permitiéndote procesar datos de forma incremental en lugar de esperar a que se sintetice todo el audio. Esto reduce significativamente la latencia percibida para textos más largos y permite aplicaciones en tiempo real. El Streaming TTS de ElevenLabs también admite funciones avanzadas de streaming fragmentado para escenarios de generación de texto dinámico.

Enviar Solicitud de Streaming TTS de OpenAI

Obteniendo Voces Disponibles

Algunos proveedores de TTS ofrecen APIs de listado de voces para descubrir voces disponibles de manera programática.

Get Google Cloud Voices

Manejo de Errores

Al enviar cualquier solicitud, es crucial manejar los errores potenciales verificando el ErrorStatus en su callback. El ErrorStatus proporciona información sobre cualquier problema que pueda ocurrir durante la solicitud.

Manejo de Errores

Cancelar Solicitudes

El complemento te permite cancelar tanto las solicitudes de texto a texto como las de TTS mientras están en progreso. Esto puede ser útil cuando quieres interrumpir una solicitud de larga duración o cambiar el flujo de la conversación dinámicamente.

Cancelar Solicitud

Mejores Prácticas

  1. Maneje siempre los errores potenciales verificando el ErrorStatus en su callback
  2. Tenga en cuenta los límites de tasa de la API y los costos de cada proveedor
  3. Utilice el modo de streaming para conversaciones largas o interactivas
  4. Considere cancelar las solicitudes que ya no sean necesarias para gestionar los recursos de manera eficiente
  5. Utilice TTS con streaming para textos más largos para reducir la latencia percibida
  6. Para el procesamiento de audio, el plugin Runtime Audio Importer ofrece una solución conveniente, pero puede implementar un procesamiento personalizado según las necesidades de su proyecto
  7. Al usar modelos de razonamiento (DeepSeek Reasoner, Grok), maneje apropiadamente tanto las salidas de razonamiento como las de contenido
  8. Descubra las voces disponibles utilizando las API de listado de voces antes de implementar funciones de TTS
  9. Para el streaming fragmentado de ElevenLabs: Use el modo continuo cuando el texto se genere de forma incremental (como respuestas de IA) y el modo inmediato para fragmentos de texto preformados
  10. Configure tiempos de espera de vaciado apropiados para el modo continuo para equilibrar la capacidad de respuesta con el flujo natural del habla
  11. Elija tamaños de fragmento óptimos y retrasos de envío basados en los requisitos de tiempo real de su aplicación

Solución de Problemas

  • Verifique que sus credenciales de API sean correctas para cada proveedor
  • Verifique su conexión a internet
  • Asegúrese de que cualquier biblioteca de procesamiento de audio que utilice (como Runtime Audio Importer) esté correctamente instalada cuando trabaje con funciones de TTS
  • Verifique que esté utilizando el formato de audio correcto al procesar los datos de respuesta de TTS
  • Para TTS con streaming, asegúrese de manejar correctamente los fragmentos de audio
  • Para modelos de razonamiento, asegúrese de procesar tanto las salidas de razonamiento como las de contenido
  • Consulte la documentación específica del proveedor para conocer la disponibilidad y capacidades del modelo
  • Para el streaming fragmentado de ElevenLabs: Asegúrese de llamar a FinishChunkedStreaming cuando termine para cerrar la sesión correctamente
  • Para problemas con el modo continuo: Verifique que los límites de las oraciones se detecten correctamente en su texto
  • Para aplicaciones en tiempo real: Ajuste los retrasos de envío de fragmentos y los tiempos de espera de vaciado según sus requisitos de latencia