본문으로 건너뛰기

개요

Runtime Text To Speech Documentation

Runtime Text To Speech는 실시간, 오프라인, 크로스 플랫폼 텍스트 음성 합성을 가능하게 하는 플러그인입니다. 44개 언어, 900개 이상의 음성, 200개 이상의 음성 품질을 지원하며 – 이제 스튜디오 품질의 출력을 가진 최첨단 오픈소스 음성 모델 패밀리인 Kokoro 🚀를 특징으로 합니다. 이 플러그인은 빠르고 가벼우며, 자연스러운 발화가 필요한 게임, 앱 및 프로젝트에 이상적입니다.

현재 플러그인은 다음 플랫폼을 지원합니다: Windows, Linux, Mac, Android (Meta Quest 포함), iOS.

📹 실제 동작 보기
YouTube 데모를 시청하거나 일반 음성 샘플을 Piper Samples에서 테스트해 보세요.

Kokoro

이 플러그인은 또한 Hugging Face에 최근 공개된 고품질 오픈소스 TTS 아키텍처인 Kokoro 음성 모델을 지원합니다.

  • 8개 언어에 걸친 49개의 고품질 모델:
    🇺🇸 영어 (미국) • 🇬🇧 영어 (영국) • 🇨🇳 중국어 간체 • 🇪🇸 스페인어 • 🇧🇷 포르투갈어 • 🇮🇳 힌디어 • 🇫🇷 프랑스어 • 🇮🇹 이탈리아어
  • 라이브 미리보기 제공: Kokoro 음성 테스트
Kokoro를 선택하는 이유?

Kokoro 음성 모델은 현재 가장 높은 품질의 오픈소스 TTS 솔루션 중 하나입니다.

주요 기능

  • 완전한 오프라인 합성: 인터넷 연결 불필요
  • 다중 합성 모드:
    • 일반 합성: 전체 텍스트에 대한 완전한 오디오 생성
    • 스트리밍 합성: 생성되는 대로 오디오 청크를 실시간으로 처리
  • 취소 지원: 진행 중인 합성 작업을 언제든지 중단 가능
  • 크로스 플랫폼 호환성: 모든 주요 플랫폼에서 작동
  • Blueprint 및 C++ 지원: 두 환경 모두에서 완전한 API 접근

설치

시작하려면 첫 실행 시 플러그인 설정을 통해 음성 모델을 설치하세요. 설치 후 프로젝트에서 플러그인 사용을 시작할 수 있습니다. 자세한 지침은 플러그인 사용 방법 페이지를 참조하세요.

플러그인 상세 정보

이 플러그인은 Piper, KokoroONNX Runtime 라이브러리를 사용하여 실시간 텍스트 음성 합성을 제공합니다. 이 플러그인을 사용하면 에디터를 통해 여러 음성 모델을 다운로드하고 관리할 수 있으며, 이 모델들은 프로젝트와 함께 패키징될 수 있습니다.

핵심 기능은 합성을 위한 텍스트 입력 처리 및 음성 모델 선택으로 구성됩니다. 일부 음성 모델은 여러 화자를 지원합니다 – 예를 들어, English LibriTTS는 900명 이상의 다른 화자를 포함하고, German Thorsten Emotional은 7명의 화자를 가집니다. 출력은 PCM 오디오 데이터(부동 소수점 형식)와 해당 샘플 레이트 및 채널 수입니다. 이 데이터는 두 가지 방식으로 처리할 수 있습니다:

  • 일반 합성: 합성이 완료되면 전체 오디오 데이터를 수신
  • 스트리밍 합성: 생성되는 대로 청크 단위로 오디오 데이터를 수신하여 실시간 처리가 가능

이 원시 오디오 데이터를 재생 가능한 사운드 웨이브로 변환하려면 일반 및 스트리밍 재생 기능을 모두 제공하는 Runtime Audio Importer 플러그인이 일반적으로 필요합니다.

추가 리소스