Aller au contenu principal

Comment utiliser le plugin

Le Runtime AI Chatbot Integrator fournit deux fonctionnalités principales : le chat Texte-à-Texte et la Synthèse Vocale (TTS). Les deux fonctionnalités suivent un flux de travail similaire :

  1. Enregistrez votre jeton de fournisseur d'API
  2. Configurez les paramètres spécifiques à la fonctionnalité
  3. Envoyez des requêtes et traitez les réponses

Enregistrer le jeton du fournisseur

Avant d'envoyer des requêtes, enregistrez votre jeton de fournisseur d'API en utilisant la fonction RegisterProviderToken.

Enregistrer le jeton du fournisseur dans Blueprint

Fonctionnalité de Chat Texte-à-Texte

Le plugin prend en charge deux modes de requête de chat pour chaque fournisseur :

Requêtes de Chat Non-Streaming

Récupérez la réponse complète en un seul appel.

Send OpenAI Chat Request

Requêtes de Chat en Streaming

Recevez des fragments de réponse en temps réel pour une interaction plus dynamique.

Envoyer une Requête de Chat en Streaming OpenAI

Fonctionnalité de Synthèse Vocale (TTS)

Convertissez du texte en audio vocal de haute qualité en utilisant les principaux fournisseurs de TTS. Le plugin renvoie des données audio brutes (TArray<uint8>) que vous pouvez traiter selon les besoins de votre projet.

Bien que les exemples ci-dessous démontrent le traitement audio pour la lecture à l'aide du plugin Runtime Audio Importer (voir la documentation sur l'importation audio), le Runtime AI Chatbot Integrator est conçu pour être flexible. Le plugin renvoie simplement les données audio brutes, vous offrant une liberté totale quant à la manière de les traiter pour votre cas d'utilisation spécifique, ce qui peut inclure la lecture audio, l'enregistrement dans un fichier, un traitement audio supplémentaire, la transmission vers d'autres systèmes, des visualisations personnalisées, et bien plus encore.

Requêtes TTS Non-Streaming

Les requêtes TTS non-streaming renvoient l'intégralité des données audio en une seule réponse après que le texte complet a été traité. Cette approche est adaptée pour les textes plus courts où attendre l'audio complet ne pose pas de problème.

Envoyer une Requête TTS OpenAI

Requêtes TTS en Streaming

Le TTS en streaming délivre des fragments audio au fur et à mesure de leur génération, vous permettant de traiter les données de manière incrémentielle plutôt que d'attendre que l'audio entier soit synthétisé. Cela réduit considérablement la latence perçue pour les textes plus longs et permet des applications en temps réel. Le TTS en streaming d'ElevenLabs prend également en charge des fonctions de streaming par fragments avancées pour les scénarios de génération de texte dynamique.

Envoyer une requête TTS en streaming OpenAI

Obtenir les voix disponibles

Certains fournisseurs de TTS proposent des API de liste de voix pour découvrir les voix disponibles de manière programmatique.

Obtenir les voix Google Cloud

Gestion des Erreurs

Lors de l'envoi de requêtes, il est crucial de gérer les erreurs potentielles en vérifiant le ErrorStatus dans votre callback. Le ErrorStatus fournit des informations sur tout problème pouvant survenir pendant la requête.

Gestion des Erreurs

Annulation des Requêtes

Le plugin vous permet d'annuler les requêtes texte-à-texte et de synthèse vocale (TTS) pendant qu'elles sont en cours. Cela peut être utile lorsque vous souhaitez interrompre une requête de longue durée ou modifier dynamiquement le flux de conversation.

Annuler la Requête

Bonnes pratiques

  1. Gérez toujours les erreurs potentielles en vérifiant le ErrorStatus dans votre callback
  2. Soyez conscient des limites de débit d'API et des coûts pour chaque fournisseur
  3. Utilisez le mode streaming pour les conversations longues ou interactives
  4. Envisagez d'annuler les requêtes qui ne sont plus nécessaires pour gérer efficacement les ressources
  5. Utilisez le TTS en streaming pour les textes plus longs afin de réduire la latence perçue
  6. Pour le traitement audio, le plugin Runtime Audio Importer offre une solution pratique, mais vous pouvez implémenter un traitement personnalisé selon les besoins de votre projet
  7. Lors de l'utilisation de modèles de raisonnement (DeepSeek Reasoner, Grok), gérez correctement les sorties de raisonnement et de contenu
  8. Découvrez les voix disponibles en utilisant les API de liste de voix avant d'implémenter les fonctionnalités TTS
  9. Pour le streaming par morceaux ElevenLabs : Utilisez le mode continu lorsque le texte est généré de manière incrémentielle (comme les réponses d'IA) et le mode immédiat pour les morceaux de texte pré-formés
  10. Configurez des délais d'expulsion appropriés pour le mode continu afin d'équilibrer la réactivité avec un flux vocal naturel
  11. Choisissez des tailles de morceaux optimales et des délais d'envoi basés sur les exigences en temps réel de votre application

Dépannage

  • Vérifiez que vos identifiants API sont corrects pour chaque fournisseur
  • Vérifiez votre connexion Internet
  • Assurez-vous que toutes les bibliothèques de traitement audio que vous utilisez (telles que Runtime Audio Importer) sont correctement installées lorsque vous travaillez avec les fonctionnalités TTS
  • Vérifiez que vous utilisez le format audio correct lors du traitement des données de réponse TTS
  • Pour le TTS en streaming, assurez-vous que vous gérez correctement les morceaux audio
  • Pour les modèles de raisonnement, assurez-vous que vous traitez à la fois les sorties de raisonnement et de contenu
  • Consultez la documentation spécifique au fournisseur pour la disponibilité et les capacités des modèles
  • Pour le streaming par morceaux ElevenLabs : Assurez-vous d'appeler FinishChunkedStreaming lorsque vous avez terminé pour fermer correctement la session
  • Pour les problèmes de mode continu : Vérifiez que les limites des phrases sont correctement détectées dans votre texte
  • Pour les applications en temps réel : Ajustez les délais d'envoi des morceaux et les délais d'expulsion en fonction de vos exigences de latence