Przejdź do głównej zawartości

Jak używać wtyczki

Runtime AI Chatbot Integrator zapewnia dwie główne funkcjonalności: czat Tekst-do-Tekstu oraz Tekst-na-Mowę (TTS). Obie funkcje mają podobny przepływ pracy:

  1. Zarejestruj token dostawcy API
  2. Skonfiguruj ustawienia specyficzne dla funkcji
  3. Wyślij żądania i przetwarzaj odpowiedzi

Zarejestruj Token Dostawcy

Przed wysłaniem jakichkolwiek żądań, zarejestruj token dostawcy API za pomocą funkcji RegisterProviderToken.

Zarejestruj Token Dostawcy w Blueprint

Funkcjonalność czatu tekst-do-tekst

Wtyczka obsługuje dwa tryby żądań czatu dla każdego dostawcy:

Niestrumieniowe żądania czatu

Pobierz pełną odpowiedź w jednym wywołaniu.

Wyślij żądanie czatu OpenAI

Przesyłanie strumieniowe żądań czatu

Otrzymuj fragmenty odpowiedzi w czasie rzeczywistym dla bardziej dynamicznej interakcji.

Wyślij strumieniowe żądanie czatu OpenAI

Funkcjonalność Zamiany Tekstu na Mowę (TTS)

Konwertuj tekst na wysokiej jakości dźwięk mowy przy użyciu wiodących dostawców TTS. Wtyczka zwraca surowe dane audio (TArray<uint8>), które możesz przetworzyć zgodnie z potrzebami swojego projektu.

Podczas gdy poniższe przykłady demonstrują przetwarzanie audio do odtwarzania przy użyciu wtyczki Runtime Audio Importer (zobacz dokumentację importowania audio), Runtime AI Chatbot Integrator został zaprojektowany tak, aby był elastyczny. Wtyczka po prostu zwraca surowe dane audio, dając Ci pełną swobodę w ich przetwarzaniu dla konkretnego przypadku użycia, co może obejmować odtwarzanie audio, zapisywanie do pliku, dalsze przetwarzanie audio, przesyłanie do innych systemów, niestandardowe wizualizacje i wiele więcej.

Niestrumieniowe Żądania TTS

Niestrumieniowe żądania TTS zwracają kompletne dane audio w jednej odpowiedzi po całkowitym przetworzeniu tekstu. To podejście jest odpowiednie dla krótszych tekstów, gdzie oczekiwanie na kompletny dźwięk nie stanowi problemu.

Wyślij Żądanie OpenAI TTS

Przesyłanie strumieniowe żądań TTS

Przesyłanie strumieniowe TTS dostarcza fragmenty audio w miarę ich generowania, umożliwiając przetwarzanie danych przyrostowo zamiast czekać na syntezę całego audio. Znacząco redukuje to postrzegane opóźnienie dla dłuższych tekstów i umożliwia aplikacje działające w czasie rzeczywistym. ElevenLabs Streaming TTS obsługuje również zaawansowane funkcje przesyłania strumieniowego z podziałem na fragmenty dla scenariuszy dynamicznego generowania tekstu.

Wyślij żądanie przesyłania strumieniowego TTS OpenAI

Pobieranie dostępnych głosów

Niektórzy dostawcy TTS oferują interfejsy API do listowania głosów, umożliwiające programowe odkrywanie dostępnych głosów.

Get Google Cloud Voices

Obsługa błędów

Podczas wysyłania jakichkolwiek żądań, kluczowe jest obsługiwanie potencjalnych błędów poprzez sprawdzanie ErrorStatus w twoim wywołaniu zwrotnym. ErrorStatus dostarcza informacji o wszelkich problemach, które mogą wystąpić podczas żądania.

Obsługa błędów

Anulowanie Żądań

Wtyczka umożliwia anulowanie zarówno żądań tekst-na-tekst, jak i TTS, gdy są one w trakcie realizacji. Może to być przydatne, gdy chcesz przerwać długotrwałe żądanie lub dynamicznie zmienić przebieg konwersacji.

Anuluj Żądanie

Najlepsze Praktyki

  1. Zawsze obsługuj potencjalne błędy sprawdzając ErrorStatus w swoim callbacku
  2. Zwracaj uwagę na limity API i koszty dla każdego dostawcy
  3. Używaj trybu streamingowego dla długich form lub interaktywnych konwersacji
  4. Rozważ anulowanie żądań, które nie są już potrzebne, aby efektywnie zarządzać zasobami
  5. Używaj streamingowego TTS dla dłuższych tekstów, aby zmniejszyć postrzegane opóźnienie
  6. Do przetwarzania audio, wtyczka Runtime Audio Importer oferuje wygodne rozwiązanie, ale możesz zaimplementować własne przetwarzanie w oparciu o potrzeby projektu
  7. Przy używaniu modeli rozumowania (DeepSeek Reasoner, Grok), odpowiednio obsługuj zarówno wyjścia rozumowania, jak i treści
  8. Odkryj dostępne głosy używając API listowania głosów przed implementacją funkcji TTS
  9. Dla ElevenLabs chunked streaming: Używaj trybu ciągłego gdy tekst jest generowany przyrostowo (jak odpowiedzi AI) i trybu natychmiastowego dla predefiniowanych fragmentów tekstu
  10. Skonfiguruj odpowiednie limity czasu flush dla trybu ciągłego, aby zbalansować responsywność z naturalnym przepływem mowy
  11. Wybierz optymalne rozmiary fragmentów i opóźnienia wysyłki w oparciu o wymagania czasu rzeczywistego twojej aplikacji

Rozwiązywanie Problemów

  • Sprawdź czy twoje dane uwierzytelniające API są poprawne dla każdego dostawcy
  • Sprawdź swoje połączenie internetowe
  • Upewnij się, że wszystkie biblioteki przetwarzania audio, których używasz (takie jak Runtime Audio Importer) są poprawnie zainstalowane podczas pracy z funkcjami TTS
  • Sprawdź czy używasz poprawnego formatu audio podczas przetwarzania danych odpowiedzi TTS
  • Dla streamingowego TTS, upewnij się że poprawnie obsługujesz fragmenty audio
  • Dla modeli rozumowania, upewnij się że przetwarzasz zarówno wyjścia rozumowania, jak i treści
  • Sprawdź dokumentację specyficzną dla dostawcy dotyczącą dostępności i możliwości modeli
  • Dla ElevenLabs chunked streaming: Upewnij się że wywołujesz FinishChunkedStreaming po zakończeniu, aby poprawnie zamknąć sesję
  • Dla problemów z trybem ciągłym: Sprawdź czy granice zdań są poprawnie wykrywane w twoim tekście
  • Dla aplikacji czasu rzeczywistego: Dostosuj opóźnienia wysyłki fragmentów i limity czasu flush w oparciu o twoje wymagania dotyczące opóźnienia