본문으로 건너뛰기

개요

Runtime Text To Speech Documentation

Runtime Text To Speech는 실시간, 오프라인, 크로스 플랫폼 텍스트 음성 변환(TTS)을 지원하는 플러그인입니다. 39개 언어, 900개 이상의 음성, 160개 이상의 음질을 지원하며, 이제 Kokoro 🚀라는 최첨단 오픈소스 음성 모델군을 포함하여 스튜디오급 품질 출력을 제공합니다. 이 플러그인은 빠르고 가벼우며, 자연스러운 음성이 필요한 게임, 애플리케이션, 프로젝트에 최적화되어 있습니다.

현재 지원되는 플랫폼은 다음과 같습니다: Windows, Linux, Mac, Android (Meta Quest 포함), iOS.

📹 동작 확인하기
YouTube 데모를 시청하거나 Piper Samples에서 일반 음성 샘플을 테스트해보세요.

Kokoro

이 플러그인은 이제 Kokoro 음성 모델을 구현하며, 이는 최근 Hugging Face에 게시된 고품질 오픈소스 텍스트 음성 변환(TTS) 아키텍처입니다.

  • 6개 언어로 제공되는 45개 고품질 모델:
    🇺🇸 미국 영어 • 🇬🇧 영국 영어 • 🇪🇸 스페인어 • 🇧🇷 포르투갈어 • 🇮🇳 힌디어 • 🇫🇷 프랑스어
  • 실시간 미리보기 제공: Kokoro Voices 테스트
왜 Kokoro인가요?

Kokoro 음성 모델은 현재 사용 가능한 최고 품질의 오픈소스 TTS 솔루션 중 하나입니다.

설치 방법

초기 실행 시 플러그인 설정에서 음성 모델을 설치하여 시작하세요. 설치 완료 후 플러그인을 프로젝트에서 사용할 수 있습니다. 자세한 사용 방법은 플러그인 사용 방법 페이지를 참조하세요.

플러그인 세부 정보

이 플러그인은 Piper, Kokoro, 및 ONNX Runtime 라이브러리를 사용하여 실시간 텍스트 음성 변환을 제공합니다. 플러그인을 통해 에디터에서 여러 음성 모델을 다운로드 및 관리할 수 있으며, 이를 프로젝트와 함께 패키징할 수 있습니다.

핵심 기능은 텍스트 입력 처리와 음성 모델 선택을 통한 합성입니다. 일부 음성 모델은 여러 화자를 지원하는데, 예를 들어 English LibriTTS는 900명 이상의 다양한 화자를 포함하고 있으며, German Thorsten Emotional 모델은 7명의 화자를 제공합니다. 출력 방식은 PCM 오디오 데이터(부동 소수점 형식)로, 샘플링 속도 및 채널 수와 함께 제공됩니다. 이 원시 오디오 데이터를 재생 가능한 사운드 웨이브로 변환하려면 Runtime Audio Importer 플러그인이 필요합니다.