Pular para o conteúdo principal

Visão Geral

Documentação do Runtime AI Chatbot Integrator

O Runtime AI Chatbot Integrator é um plugin multiplataforma para Unreal Engine que permite a integração perfeita de chatbots de IA e serviços de texto-para-voz diretamente em seus projetos. O plugin suporta vários provedores de IA líderes e oferece interações de chat flexíveis com modos de resposta em streaming e não-streaming, bem como conversão de texto-para-voz de alta qualidade com capacidades de streaming.

Funcionalidades Suportadas

Chat Texto-para-Texto

Integre capacidades conversacionais alimentadas por IA com vários provedores líderes.

OpenAI

  • GPT-5
  • GPT-5 Mini
  • GPT-5 Nano
  • GPT-3.5 Turbo
  • GPT-4o
  • GPT-4o Mini
  • GPT-4-32k
  • GPT-4 Turbo
  • GPT-4-1
  • ChatGPT-4o Latest
  • O1 Pro
  • O1
  • O3
  • O3 Mini
  • O4 Mini

Claude (Anthropic)

  • Claude 4.5 Sonnet
  • Claude 4 Sonnet
  • Claude 4.1 Opus
  • Claude 4.0 Opus
  • Claude 3.7 Sonnet
  • Claude 3.5 Haiku
  • Claude 3 Opus

DeepSeek

  • DeepSeek Chat
  • DeepSeek Reasoner (com saída de raciocínio dedicada)

Gemini (Google)

  • Gemini 2.5 Pro
  • Gemini Flash Latest
  • Gemini Flash Lite Latest
  • Gemini 2.5 Flash
  • Gemini 2.5 Flash Lite
  • Gemini 2.0 Flash
  • Gemini 2.0 Flash Lite

Grok (xAI)

  • Grok 4 Fast Reasoning
  • Grok 4 Fast Non-Reasoning
  • Grok Code Fast 1
  • Grok 4
  • Grok 3
  • Grok 3 Mini
  • Grok 2 Vision 1212
  • Grok 2 1212
  • Grok Vision Beta

Texto-para-Voz (TTS)

Converta texto em fala com som natural usando provedores de TTS líderes, com opções padrão e de streaming.

OpenAI TTS

Múltiplas opções de voz com suporte regular e em streaming:

  • Alloy
  • Ash
  • Ballad
  • Coral
  • Echo
  • Fable
  • Onyx
  • Nova
  • Sage
  • Shimmer
  • Verse

Modelos:

  • TTS-1
  • TTS-1-HD
  • GPT-4o Mini TTS

ElevenLabs TTS

Múltiplos modelos com suporte regular e em streaming:

  • Eleven V3 (Modelo mais recente com geração de fala expressiva e semelhante à humana, suporta 70+ idiomas)
  • Eleven TTV V3 (Modelo de design Texto para Voz com fala expressiva e semelhante à humana, suporta 70+ idiomas)
  • Eleven Multilingual V2 (Modelo mais realista com expressão emocional rica)
  • Eleven Turbo V2 (Modelo de alta qualidade e baixa latência otimizado para inglês)
  • Eleven Turbo V2.5 (Modelo de alta qualidade e baixa latência com suporte multilíngue)
  • Eleven Flash V2 (Modelo ultrarrápido otimizado para uso em tempo real em inglês)
  • Eleven Flash V2.5 (Modelo ultrarrápido otimizado para uso em tempo real com suporte multilíngue)
  • Eleven Monolingual V1

Google Cloud TTS

Vozes neurais de alta qualidade com amplo suporte de idiomas:

  • Vozes Neural2
  • Vozes Studio
  • Vozes Wavenet
  • Vozes Standard
  • Suporte a Voz Personalizada
  • Múltiplos idiomas e localidades
  • Suporte a SSML para controle refinado

Azure TTS

Serviço de fala cognitiva da Microsoft com amplas opções de voz:

  • Vozes neurais em vários idiomas
  • Estilos de voz e emoções
  • Suporte a voz personalizada
  • Suporte a marcação SSML
  • Múltiplos formatos de saída incluindo streaming

Principais Funcionalidades

  • Compatibilidade multiplataforma (Windows, Mac, Android, iOS, Linux, Meta Quest e mais)
  • Suporte para múltiplos provedores de IA e TTS
  • Respostas de chat com streaming e sem streaming
  • TTS com streaming para síntese e processamento de áudio em tempo real
  • Suporte a modelos de raciocínio com saídas separadas de raciocínio e conteúdo (DeepSeek, Grok)
  • Síntese de voz de alta qualidade com latência mínima
  • Integração fácil com Blueprints do Unreal Engine e C++
  • Opções de configuração flexíveis
  • Suporte para 70+ idiomas com modelos ElevenLabs V3
  • Listagem e descoberta de vozes para Google Cloud e Azure TTS

Pré-requisitos

Para usar o plugin, você precisará de credenciais de acesso à API de um dos provedores suportados:

Para processamento de áudio, você pode implementar sua própria solução ou usar o plugin Runtime Audio Importer, que pode importar dados de áudio em vários formatos (MP3, WAV, FLAC, OGG VORBIS, OGG OPUS, BINK, RAW (PCM)). Para mais informações, veja aqui.

Recursos Adicionais