본문으로 건너뛰기

개요

Runtime Text To Speech Documentation

Runtime Text To Speech는 실시간, 오프라인 및 크로스 플랫폼 텍스트 음성 변환을 가능하게 하는 플러그인입니다. 40개 언어, 900개 이상의 목소리, 160가지 이상의 음성 품질을 지원하며, 이제 스튜디오급 품질의 오픈소스 음성 모델 패밀리인 Kokoro 🚀을 포함합니다. 이 플러그인은 빠르고 가벼우며, 자연스러운 음성이 필요한 게임, 앱 및 프로젝트에 이상적입니다.

현재 플러그인은 다음 플랫폼을 지원합니다: Windows, Linux, Mac, Android (Meta Quest 포함), iOS.

📹 실제 동작 확인
YouTube 데모를 시청하거나 일반 음성 샘플을 Piper Samples에서 테스트해 보세요.

Kokoro

이 플러그인은 최근 Hugging Face에 공개된 고품질 오픈소스 TTS 아키텍처인 Kokoro 음성 모델을 구현합니다.

  • 7개 언어에 걸친 53개의 고품질 모델:
    🇺🇸 영어 (미국) • 🇬🇧 영어 (영국) • 🇨🇳 중국어 간체 • 🇪🇸 스페인어 • 🇧🇷 포르투갈어 • 🇮🇳 힌디어 • 🇫🇷 프랑스어
  • 라이브 미리보기 가능: Kokoro 음성 테스트
Kokoro를 선택하는 이유?

Kokoro 음성 모델은 현재 가장 높은 품질의 오픈소스 TTS 솔루션 중 하나입니다.

설치

시작하려면 첫 실행 시 플러그인 설정을 통해 음성 모델을 설치하세요. 설치 후 프로젝트에서 플러그인 사용을 시작할 수 있습니다. 자세한 지침은 플러그인 사용 방법 페이지를 참조하세요.

플러그인 상세 정보

이 플러그인은 Piper, Kokoro, ONNX Runtime 라이브러리를 사용하여 실시간 텍스트 음성 변환을 제공합니다. 플러그인을 통해 에디터에서 여러 음성 모델을 다운로드하고 관리할 수 있으며, 이를 프로젝트와 함께 패키징할 수 있습니다.

핵심 기능은 텍스트 입력 처리 및 합성을 위한 음성 모델 선택으로 구성됩니다. 일부 음성 모델은 여러 화자를 지원합니다. 예를 들어 English LibriTTS는 900명 이상의 다른 화자를 포함하며, German Thorsten Emotional은 7명의 화자를 갖추고 있습니다. 출력은 해당 샘플 레이트와 채널 수를 가진 PCM 오디오 데이터(부동 소수점 형식)입니다. 이 원시 오디오 데이터를 재생 가능한 사운드 웨이브로 변환하려면 Runtime Audio Importer 플러그인이 필요합니다.

추가 리소스