Aller au contenu principal

Comment utiliser le plugin

Le Runtime AI Chatbot Integrator fournit deux fonctionnalités principales : le chat Texte-vers-Texte et la Synthèse Vocale (TTS). Les deux fonctionnalités suivent un flux de travail similaire :

  1. Enregistrez votre jeton de fournisseur d'API
  2. Configurez les paramètres spécifiques à la fonctionnalité
  3. Envoyez des requêtes et traitez les réponses

Enregistrer le jeton du fournisseur

Avant d'envoyer des requêtes, enregistrez votre jeton de fournisseur d'API en utilisant la fonction RegisterProviderToken.

Enregistrer le jeton du fournisseur dans Blueprint

Fonctionnalité de Chat Texte-à-Texte

Le plugin prend en charge deux modes de requête de chat pour chaque fournisseur :

Requêtes de Chat Non-Streaming

Récupérez la réponse complète en un seul appel.

Send OpenAI Chat Request

Requêtes de Chat en Streaming

Recevez des morceaux de réponse en temps réel pour une interaction plus dynamique.

Envoyer une Requête de Chat en Streaming OpenAI

Fonctionnalité de Synthèse Vocale (TTS)

Convertissez du texte en audio vocal de haute qualité en utilisant les principaux fournisseurs de TTS. Le plugin renvoie des données audio brutes (TArray<uint8>) que vous pouvez traiter selon les besoins de votre projet.

Bien que les exemples ci-dessous démontrent le traitement audio pour la lecture à l'aide du plugin Runtime Audio Importer (voir la documentation d'importation audio), le Runtime AI Chatbot Integrator est conçu pour être flexible. Le plugin renvoie simplement les données audio brutes, vous donnant une liberté totale sur la manière de les traiter pour votre cas d'utilisation spécifique, ce qui peut inclure la lecture audio, l'enregistrement dans un fichier, un traitement audio supplémentaire, la transmission vers d'autres systèmes, des visualisations personnalisées, et plus encore.

Requêtes TTS Non-Streaming

Les requêtes TTS non-streaming renvoient les données audio complètes en une seule réponse après que l'intégralité du texte a été traitée. Cette approche est adaptée aux textes plus courts où attendre l'audio complet ne pose pas de problème.

Send OpenAI TTS Request

Diffusion de Requêtes TTS

La diffusion TTS (Text-to-Speech) délivre des fragments audio au fur et à mesure de leur génération, vous permettant de traiter les données de manière incrémentielle plutôt que d'attendre la synthèse complète de l'audio. Cela réduit considérablement la latence perçue pour les textes longs et permet des applications en temps réel. La diffusion TTS ElevenLabs prend également en charge des fonctions de diffusion par fragments avancées pour les scénarios de génération de texte dynamique.

Envoyer une Requête de Diffusion TTS OpenAI

Obtenir les voix disponibles

Certains fournisseurs de TTS proposent des API de liste de voix pour découvrir les voix disponibles de manière programmatique.

Obtenir les voix Google Cloud

Gestion des Erreurs

Lors de l'envoi de requêtes, il est crucial de gérer les erreurs potentielles en vérifiant le ErrorStatus dans votre callback. Le ErrorStatus fournit des informations sur tout problème pouvant survenir pendant la requête.

Gestion des Erreurs

Annulation des Requêtes

Le plugin vous permet d'annuler les requêtes texte-à-texte et de synthèse vocale (TTS) pendant qu'elles sont en cours. Cela peut être utile lorsque vous souhaitez interrompre une requête de longue durée ou modifier dynamiquement le flux de conversation.

Cancel Request

Bonnes Pratiques

  1. Gérez toujours les erreurs potentielles en vérifiant le ErrorStatus dans votre callback
  2. Soyez attentif aux limites de débit d'API et aux coûts de chaque fournisseur
  3. Utilisez le mode streaming pour les conversations longues ou interactives
  4. Envisagez d'annuler les requêtes qui ne sont plus nécessaires pour gérer les ressources efficacement
  5. Utilisez la synthèse vocale en streaming pour les textes longs afin de réduire la latence perçue
  6. Pour le traitement audio, le plugin Runtime Audio Importer offre une solution pratique, mais vous pouvez implémenter un traitement personnalisé selon les besoins de votre projet
  7. Lors de l'utilisation de modèles de raisonnement (DeepSeek Reasoner, Grok), gérez correctement les sorties de raisonnement et de contenu
  8. Découvrez les voix disponibles en utilisant les API de liste de voix avant d'implémenter les fonctionnalités de synthèse vocale
  9. Pour le streaming par morceaux ElevenLabs : Utilisez le mode continu lorsque le texte est généré de manière incrémentielle (comme les réponses d'IA) et le mode immédiat pour les morceaux de texte pré-formés
  10. Configurez des délais d'expulsion appropriés pour le mode continu afin d'équilibrer la réactivité avec le flux naturel de la parole
  11. Choisissez des tailles de morceaux optimales et des délais d'envoi en fonction des exigences en temps réel de votre application

Dépannage

  • Vérifiez que vos identifiants API sont corrects pour chaque fournisseur
  • Vérifiez votre connexion Internet
  • Assurez-vous que toutes les bibliothèques de traitement audio que vous utilisez (comme Runtime Audio Importer) sont correctement installées lorsque vous travaillez avec les fonctionnalités de synthèse vocale
  • Vérifiez que vous utilisez le bon format audio lors du traitement des données de réponse de synthèse vocale
  • Pour la synthèse vocale en streaming, assurez-vous de gérer correctement les morceaux audio
  • Pour les modèles de raisonnement, assurez-vous de traiter à la fois les sorties de raisonnement et de contenu
  • Consultez la documentation spécifique au fournisseur pour la disponibilité et les capacités des modèles
  • Pour le streaming par morceaux ElevenLabs : Assurez-vous d'appeler FinishChunkedStreaming une fois terminé pour fermer correctement la session
  • Pour les problèmes de mode continu : Vérifiez que les limites de phrase sont correctement détectées dans votre texte
  • Pour les applications en temps réel : Ajustez les délais d'envoi des morceaux et les délais d'expulsion en fonction de vos exigences de latence