Zum Hauptinhalt springen

So verwenden Sie das Plugin

Der Runtime AI Chatbot Integrator bietet zwei Hauptfunktionen: Text-zu-Text-Chat und Text-zu-Sprache (TTS). Beide Funktionen folgen einem ähnlichen Arbeitsablauf:

  1. Registrieren Sie Ihren API-Provider-Token
  2. Konfigurieren Sie funktionsspezifische Einstellungen
  3. Senden Sie Anfragen und verarbeiten Sie Antworten

Provider-Token registrieren

Bevor Sie Anfragen senden, registrieren Sie Ihren API-Provider-Token mit der RegisterProviderToken-Funktion.

Register Provider Token in Blueprint

Text-zu-Text-Chat-Funktionalität

Das Plugin unterstützt zwei Chat-Anfragemodi für jeden Anbieter:

Nicht-Streaming-Chatanfragen

Rufen Sie die vollständige Antwort in einem einzigen Aufruf ab.

Send OpenAI Chat Request

Streaming-Chat-Anfragen

Empfangen Sie Antwort-Chunks in Echtzeit für eine dynamischere Interaktion.

OpenAI Streaming-Chat-Anfrage senden

Text-to-Speech (TTS)-Funktionalität

Konvertieren Sie Text in hochwertige Sprach-Audio mit führenden TTS-Anbietern. Das Plugin gibt Roh-Audiodaten (TArray<uint8>) zurück, die Sie entsprechend den Anforderungen Ihres Projekts verarbeiten können.

Während die folgenden Beispiele die Audiobearbeitung für die Wiedergabe mithilfe des Runtime Audio Importer-Plugins demonstrieren (siehe Audio-Import-Dokumentation), ist der Runtime AI Chatbot Integrator flexibel gestaltet. Das Plugin gibt einfach die Roh-Audiodaten zurück und gibt Ihnen damit vollständige Freiheit, wie Sie diese für Ihren spezifischen Anwendungsfall verarbeiten, was Audiowiedergabe, Speichern in Dateien, weitere Audiobearbeitung, Übertragung an andere Systeme, benutzerdefinierte Visualisierungen und mehr umfassen könnte.

Nicht-Streaming TTS-Anfragen

Nicht-Streaming TTS-Anfragen liefern die vollständigen Audiodaten in einer einzigen Antwort, nachdem der gesamte Text verarbeitet wurde. Dieser Ansatz eignet sich für kürzere Texte, bei denen das Warten auf das vollständige Audio unproblematisch ist.

Send OpenAI TTS Request

Streaming TTS-Anfragen

Streaming TTS liefert Audio-Chunks, sobald sie generiert werden, und ermöglicht es Ihnen, Daten inkrementell zu verarbeiten, anstatt auf die Synthese des gesamten Audios zu warten. Dies reduziert die wahrgenommene Latenz für längere Texte erheblich und ermöglicht Echtzeitanwendungen. ElevenLabs Streaming TTS unterstützt auch erweiterte Chunked-Streaming-Funktionen für Szenarien mit dynamischer Texterzeugung.

OpenAI Streaming TTS-Anfrage senden

Verfügbare Stimmen abrufen

Einige TTS-Anbieter bieten Voice-Listing-APIs an, um verfügbare Stimmen programmatisch zu ermitteln.

Get Google Cloud Voices

Fehlerbehandlung

Beim Senden von Anfragen ist es entscheidend, potenzielle Fehler zu behandeln, indem Sie den ErrorStatus in Ihrem Callback überprüfen. Der ErrorStatus liefert Informationen über Probleme, die während der Anfrage auftreten können.

Fehlerbehandlung

Anfragen abbrechen

Das Plugin ermöglicht es Ihnen, sowohl Text-zu-Text- als auch TTS-Anfragen abzubrechen, während sie noch in Bearbeitung sind. Dies kann nützlich sein, wenn Sie eine lang laufende Anfrage unterbrechen oder den Gesprächsfluss dynamisch ändern möchten.

Anfrage abbrechen

Best Practices

  1. Behandeln Sie potenzielle Fehler immer durch Überprüfung des ErrorStatus in Ihrem Callback
  2. Achten Sie auf API-Ratenlimits und Kosten für jeden Anbieter
  3. Verwenden Sie den Streaming-Modus für langfristige oder interaktive Konversationen
  4. Erwägen Sie das Abbrechen von Anfragen, die nicht mehr benötigt werden, um Ressourcen effizient zu verwalten
  5. Verwenden Sie Streaming TTS für längere Texte, um die wahrgenommene Latenz zu reduzieren
  6. Für die Audioverarbeitung bietet das Runtime Audio Importer Plugin eine praktische Lösung, aber Sie können basierend auf Ihren Projektanforderungen eine benutzerdefinierte Verarbeitung implementieren
  7. Wenn Sie Reasoning-Modelle (DeepSeek Reasoner, Grok) verwenden, behandeln Sie sowohl Reasoning- als auch Inhaltsausgaben angemessen
  8. Entdecken Sie verfügbare Stimmen mithilfe von Voice-Listing-APIs, bevor Sie TTS-Funktionen implementieren
  9. Für ElevenLabs Chunked Streaming: Verwenden Sie den kontinuierlichen Modus, wenn Text inkrementell generiert wird (wie bei KI-Antworten), und den sofortigen Modus für vorgeformte Textblöcke
  10. Konfigurieren Sie angemessene Flush-Timeouts für den kontinuierlichen Modus, um Reaktionsfähigkeit mit natürlichem Sprachfluss auszugleichen
  11. Wählen Sie optimale Chunk-Größen und Sendeverzögerungen basierend auf den Echtzeitanforderungen Ihrer Anwendung

Fehlerbehebung

  • Überprüfen Sie, ob Ihre API-Anmeldedaten für jeden Anbieter korrekt sind
  • Überprüfen Sie Ihre Internetverbindung
  • Stellen Sie sicher, dass alle von Ihnen verwendeten Audioverarbeitungsbibliotheken (wie Runtime Audio Importer) ordnungsgemäß installiert sind, wenn Sie mit TTS-Funktionen arbeiten
  • Vergewissern Sie sich, dass Sie das richtige Audioformat bei der Verarbeitung von TTS-Antwortdaten verwenden
  • Für Streaming TTS: Stellen Sie sicher, dass Sie Audioblöcke korrekt verarbeiten
  • Für Reasoning-Modelle: Stellen Sie sicher, dass Sie sowohl Reasoning- als auch Inhaltsausgaben verarbeiten
  • Überprüfen Sie die anbieterspezifische Dokumentation für Modellverfügbarkeit und -fähigkeiten
  • Für ElevenLabs Chunked Streaming: Stellen Sie sicher, dass Sie FinishChunkedStreaming aufrufen, wenn Sie fertig sind, um die Sitzung ordnungsgemäß zu schließen
  • Bei Problemen mit dem kontinuierlichen Modus: Überprüfen Sie, ob Satzgrenzen in Ihrem Text korrekt erkannt werden
  • Für Echtzeitanwendungen: Passen Sie Chunk-Sendeverzögerungen und Flush-Timeouts basierend auf Ihren Latenzanforderungen an