개요
Runtime Text To Speech는 실시간, 오프라인, 크로스 플랫폼 텍스트 음성 변환(TTS)을 지원하는 플러그인입니다. 39개 언어, 900개 이상의 음성, 160개 이상의 음질을 지원하며, 이제 Kokoro 🚀라는 최첨단 오픈소스 음성 모델군을 포함하여 스튜디오급 품질 출력을 제공합니다. 이 플러그인은 빠르고 가벼우며, 자연스러운 음성이 필요한 게임, 애플리케이션, 프로젝트에 최적화되어 있습니다.
현재 지원되는 플랫폼은 다음과 같습니다: Windows, Linux, Mac, Android (Meta Quest 포함), iOS.
📹 동작 확인하기
YouTube 데모를 시청하거나 Piper Samples에서 일반 음성 샘플을 테스트해보세요.
Kokoro
이 플러그인은 이제 Kokoro 음성 모델을 구현하며, 이는 최근 Hugging Face에 게시된 고품질 오픈소스 텍스트 음성 변환(TTS) 아키텍처입니다.
- 6개 언어로 제공되는 45개 고품질 모델:
🇺🇸 미국 영어 • 🇬🇧 영국 영어 • 🇪🇸 스페인어 • 🇧🇷 포르투갈어 • 🇮🇳 힌디어 • 🇫🇷 프랑스어 - 실시간 미리보기 제공: Kokoro Voices 테스트
Kokoro 음성 모델은 현재 사용 가능한 최고 품질의 오픈소스 TTS 솔루션 중 하나입니다.
설치 방법
초기 실행 시 플러그인 설정에서 음성 모델을 설치하여 시작하세요. 설치 완료 후 플러그인을 프로젝트에서 사용할 수 있습니다. 자세한 사용 방법은 플러그인 사용 방법 페이지를 참조하세요.
플러그인 세부 정보
이 플러그인은 Piper, Kokoro, 및 ONNX Runtime 라이브러리를 사용하여 실시간 텍스트 음성 변환을 제공합니다. 플러그인을 통해 에디터에서 여러 음성 모델을 다운로드 및 관리할 수 있으며, 이를 프로젝트와 함께 패키징할 수 있습니다.
핵심 기능은 텍스트 입력 처리와 음성 모델 선택을 통한 합성입니다. 일부 음성 모델은 여러 화자를 지원하는데, 예를 들어 English LibriTTS는 900명 이상 의 다양한 화자를 포함하고 있으며, German Thorsten Emotional 모델은 7명의 화자를 제공합니다. 출력 방식은 PCM 오디오 데이터(부동 소수점 형식)로, 샘플링 속도 및 채널 수와 함께 제공됩니다. 이 원시 오디오 데이터를 재생 가능한 사운드 웨이브로 변환하려면 Runtime Audio Importer 플러그인이 필요합니다.