본문으로 건너뛰기

개요

Runtime Text To Speech Documentation

Runtime Text To Speech는 실시간, 오프라인, 크로스 플랫폼 텍스트 음성 변환을 지원하는 플러그인입니다. 40개 언어, 900개 이상의 음성, 160개 이상의 음성 품질을 지원하며, 이제는 스튜디오 품질의 출력을 제공하는 최첨단 오픈소스 음성 모델 패밀리인 Kokoro 🚀를 제공합니다. 이 플러그인은 빠르고 가벼우며, 자연스러운 음성이 필요한 게임, 앱 및 프로젝트에 이상적입니다.

현재 플러그인은 다음 플랫폼을 지원합니다: Windows, Linux, Mac, Android (포함 Meta Quest), 그리고 iOS.

📹 실행 영상 보기
YouTube 데모를 시청하거나 Piper Samples에서 일반적인 음성 샘플을 테스트하세요.

Kokoro

플러그인은 이제 Kokoro 음성 모델을 구현합니다 - 최근 Hugging Face에 발표된 고품질 오픈소스 TTS 아키텍처.

  • 6개 언어로 45개의 고품질 모델:
    🇺🇸 English (US) • 🇬🇧 English (UK) • 🇪🇸 Spanish • 🇧🇷 Portuguese • 🇮🇳 Hindi • 🇫🇷 French
  • 실시간 미리보기 가능: Kokoro 음성 테스트
왜 Kokoro인가요?

Kokoro 음성 모델은 현재 사용 가능한 최고 품질의 오픈소스 TTS 솔루션 중 하나입니다.

설치

시작하려면, 최초 실행 시 플러그인 설정을 통해 음성 모델을 설치하세요. 설치 후 프로젝트에서 플러그인을 사용할 수 있습니다. 자세한 안내는 플러그인 사용 방법 페이지를 참조하세요.

플러그인 세부 정보

이 플러그인은 Piper, Kokoro, 그리고 ONNX Runtime 라이브러리를 사용하여 실시간 텍스트 음성 변환을 제공합니다. 이 플러그인을 통해 여러 음성 모델을 에디터에서 다운로드하고 관리할 수 있으며, 이를 프로젝트와 함께 패키징할 수 있습니다.

핵심 기능은 텍스트 입력 처리 및 음성 모델 선택을 통한 합성입니다. 일부 음성 모델은 여러 화자를 지원합니다 - 예를 들어, English LibriTTS는 900명 이상의 다양한 화자를 포함하며, German Thorsten Emotional은 7명의 화자를 제공합니다. 출력은 PCM 오디오 데이터(부동 소수점 형식)로, 샘플 레이트와 채널 수가 제공됩니다. 이 원시 오디오 데이터를 재생 가능한 사운드 웨이브로 변환하려면 Runtime Audio Importer 플러그인이 필요합니다.

추가 자료