Przejdź do głównej zawartości

Jak używać wtyczki

Runtime AI Chatbot Integrator oferuje dwie główne funkcjonalności: czat Tekst-do-Tekstu oraz Tekst-na-Mowę (TTS). Obie funkcje działają według podobnego przepływu:

  1. Zarejestruj swój token dostawcy API
  2. Skonfiguruj ustawienia specyficzne dla danej funkcji
  3. Wyślij żądania i przetwarzaj odpowiedzi

Zarejestruj Token Dostawcy

Przed wysłaniem jakichkolwiek żądań, zarejestruj swój token dostawcy API za pomocą funkcji RegisterProviderToken.

Zarejestruj Token Dostawcy w Blueprint

Funkcjonalność czatu tekst-do-tekstu

Wtyczka obsługuje dwa tryby żądań czatu dla każdego dostawcy:

Niestrumieniowe żądania czatu

Pobierz pełną odpowiedź w jednym wywołaniu.

Wyślij żądanie czatu OpenAI

Przesyłanie strumieniowe żądań czatu

Odbieraj fragmenty odpowiedzi w czasie rzeczywistym dla bardziej dynamicznej interakcji.

Wyślij strumieniowe żądanie czatu OpenAI

Funkcjonalność Zamiany Tekstu na Mowę (TTS)

Konwertuj tekst na wysokiej jakości dźwięk mowy przy użyciu wiodących dostawców TTS. Wtyczka zwraca surowe dane audio (TArray<uint8>), które możesz przetworzyć zgodnie z potrzebami swojego projektu.

Podczas gdy poniższe przykłady demonstrują przetwarzanie audio do odtwarzania przy użyciu wtyczki Runtime Audio Importer (zobacz dokumentację importowania audio), Runtime AI Chatbot Integrator został zaprojektowany jako elastyczny. Wtyczka po prostu zwraca surowe dane audio, dając Ci pełną swobodę w ich przetwarzaniu dla konkretnego przypadku użycia, co może obejmować odtwarzanie audio, zapis do pliku, dalsze przetwarzanie audio, przesyłanie do innych systemów, niestandardowe wizualizacje i więcej.

Niestrumieniowe Żądania TTS

Niestrumieniowe żądania TTS zwracają kompletne dane audio w jednej odpowiedzi po całkowitym przetworzeniu tekstu. To podejście jest odpowiednie dla krótszych tekstów, gdzie oczekiwanie na kompletny dźwięk nie stanowi problemu.

Wyślij Żądanie OpenAI TTS

Przesyłanie strumieniowe żądań TTS

Przesyłanie strumieniowe TTS dostarcza fragmenty audio w miarę ich generowania, umożliwiając przetwarzanie danych przyrostowo, zamiast czekać na syntezę całego nagrania. Znacząco to redukuje postrzegane opóźnienie dla dłuższych tekstów i umożliwia aplikacje działające w czasie rzeczywistym. ElevenLabs Streaming TTS obsługuje również zaawansowane funkcje przesyłania strumieniowego z podziałem na fragmenty dla scenariuszy dynamicznego generowania tekstu.

Wyślij żądanie OpenAI Streaming TTS

Pobieranie dostępnych głosów

Niektórzy dostawcy TTS oferują API do listowania głosów, umożliwiające programowe odkrywanie dostępnych głosów.

Get Google Cloud Voices

Obsługa Błędów

Podczas wysyłania jakichkolwiek żądań, kluczowe jest obsłużenie potencjalnych błędów poprzez sprawdzenie ErrorStatus w swoim wywołaniu zwrotnym. ErrorStatus dostarcza informacji o wszelkich problemach, które mogą wystąpić podczas żądania.

Obsługa Błędów

Anulowanie Żądań

Wtyczka umożliwia anulowanie zarówno żądań tekst-na-tekst, jak i TTS (text-to-speech), gdy są one w trakcie przetwarzania. Może to być przydatne, gdy chcesz przerwać długotrwałe żądanie lub dynamicznie zmienić przebieg konwersacji.

Anuluj Żądanie

Najlepsze Praktyki

  1. Zawsze obsługuj potencjalne błędy, sprawdzając ErrorStatus w swoim wywołaniu zwrotnym
  2. Zwracaj uwagę na limity szybkości API i koszty dla każdego dostawcy
  3. Używaj trybu strumieniowania dla długich lub interaktywnych rozmów
  4. Rozważ anulowanie żądań, które nie są już potrzebne, aby efektywnie zarządzać zasobami
  5. Używaj strumieniowego TTS dla dłuższych tekstów, aby zmniejszyć postrzegane opóźnienie
  6. Do przetwarzania dźwięku, wtyczka Runtime Audio Importer oferuje wygodne rozwiązanie, ale możesz zaimplementować własne przetwarzanie w oparciu o potrzeby projektu
  7. Używając modeli wnioskujących (DeepSeek Reasoner, Grok), odpowiednio obsługuj zarówno wyjścia z rozumowania, jak i treści
  8. Odkryj dostępne głosy za pomocą API listowania głosów przed implementacją funkcji TTS
  9. Dla strumieniowania ElevenLabs z podziałem na fragmenty: Używaj trybu ciągłego, gdy tekst jest generowany przyrostowo (jak odpowiedzi AI) i trybu natychmiastowego dla wcześniej utworzonych fragmentów tekstu
  10. Skonfiguruj odpowiednie limity czasu opróżniania dla trybu ciągłego, aby zrównoważyć responsywność z naturalnym przepływem mowy
  11. Wybierz optymalne rozmiary fragmentów i opóźnienia wysyłania w oparciu o wymagania czasu rzeczywistego Twojej aplikacji

Rozwiązywanie Problemów

  • Sprawdź, czy Twoje dane uwierzytelniające API są poprawne dla każdego dostawcy
  • Sprawdź swoje połączenie internetowe
  • Upewnij się, że wszelkie używane biblioteki przetwarzania dźwięku (takie jak Runtime Audio Importer) są poprawnie zainstalowane podczas pracy z funkcjami TTS
  • Sprawdź, czy używasz poprawnego formatu audio podczas przetwarzania danych odpowiedzi TTS
  • Dla strumieniowego TTS, upewnij się, że poprawnie obsługujesz fragmenty audio
  • Dla modeli wnioskujących, upewnij się, że przetwarzasz zarówno wyjścia z rozumowania, jak i treści
  • Sprawdź dokumentację specyficzną dla dostawcy pod kątem dostępności i możliwości modeli
  • Dla strumieniowania ElevenLabs z podziałem na fragmenty: Upewnij się, że wywołujesz FinishChunkedStreaming po zakończeniu, aby poprawnie zamknąć sesję
  • W przypadku problemów z trybem ciągłym: Sprawdź, czy granice zdań są poprawnie wykrywane w Twoim tekście
  • Dla aplikacji czasu rzeczywistego: Dostosuj opóźnienia wysyłania fragmentów i limity czasu opróżniania w oparciu o Twoje wymagania dotyczące opóźnienia