개요

Runtime Text To Speech는 실시간, 오프라인, 크로스 플랫폼 텍스트 음성 합성을 가능하게 하는 플러그인입니다. 44개 언어, 900개 이상의 음성, 200개 이상의 음성 품질을 지원하며 – 이제 스튜디오 품질의 출력을 가진 최첨단 오픈소스 음성 모델 패밀리인 Kokoro 🚀를 특징으로 합니다. 이 플러그인은 빠르고 가벼우며, 자연스러운 발화가 필요한 게임, 앱 및 프로젝트에 이상적입니다.
현재 플러그인은 다음 플랫폼을 지원합니다: Windows, Linux, Mac, Android (Meta Quest 포함), iOS.
📹 실제 동작 보기
YouTube 데모를 시청하거나 일반 음성 샘플을 Piper Samples에서 테스트해 보세요.
Kokoro
이 플러그인은 또한 Hugging Face에 최근 공개된 고품질 오픈소스 TTS 아키텍처인 Kokoro 음성 모델을 지원합니다.
- 8개 언어에 걸친 49개의 고품질 모델:
🇺🇸 영어 (미국) • 🇬🇧 영어 (영국) • 🇨🇳 중국어 간체 • 🇪🇸 스페인어 • 🇧🇷 포르투갈어 • 🇮🇳 힌디어 • 🇫🇷 프랑스어 • 🇮🇹 이탈리아어 - 라이브 미리보기 제공: Kokoro 음성 테스트
Kokoro 음성 모델은 현재 가장 높은 품질의 오픈소스 TTS 솔루션 중 하나입니다.
주요 기능
- 완전한 오프라인 합성: 인터넷 연결 불필요
- 다중 합성 모드:
- 일반 합성: 전체 텍스트에 대한 완전한 오디오 생성
- 스트리밍 합성: 생성되는 대로 오디오 청크를 실시간으로 처리
- 취소 지원: 진행 중인 합성 작업을 언제든지 중단 가능
- 크로스 플랫폼 호환성: 모든 주요 플랫폼에서 작동
- Blueprint 및 C++ 지원: 두 환경 모두에서 완전한 API 접근
설치
시작하려면 첫 실행 시 플러그인 설정을 통해 음성 모델을 설치하세요. 설치 후 프로젝트에서 플러그인 사용을 시작할 수 있습니다. 자세한 지침은 플러그인 사용 방법 페이지를 참조하세요.
플러그인 상세 정보
이 플러그인은 Piper, Kokoro 및 ONNX Runtime 라이브러리를 사용하여 실시간 텍스트 음성 합성을 제공합니다. 이 플러그인을 사용하면 에디터를 통해 여러 음성 모델을 다운로드하고 관리할 수 있으며, 이 모델들은 프로젝트와 함께 패키징될 수 있습니다.
핵심 기능은 합성을 위한 텍스트 입력 처리 및 음성 모델 선택으로 구성됩니다. 일부 음성 모델은 여러 화자를 지원합니다 – 예를 들어, English LibriTTS는 900명 이상의 다른 화자를 포함하고, German Thorsten Emotional은 7명의 화자를 가집니다. 출력은 PCM 오디오 데이터(부동 소수점 형식)와 해당 샘플 레이트 및 채널 수입니다. 이 데이터는 두 가지 방식으로 처리할 수 있습니다:
- 일반 합성: 합성이 완료되면 전체 오디오 데이터를 수신
- 스트리밍 합성: 생성되는 대로 청크 단위로 오디오 데이터를 수신하여 실시간 처리가 가능
이 원시 오디오 데이터를 재생 가능한 사운드 웨이브로 변환하려면 일반 및 스트리밍 재생 기능을 모두 제공하는 Runtime Audio Importer 플러그인이 일반적으로 필요합니다.
추가 리소스
- Fab에서 구입하기
- 제품 웹사이트
- 데모 다운로드 (Windows)
- Discord 지원 서버
- 비디오 튜토리얼
- 플러그인 지원 및 맞춤형 개발: [email protected] (팀 및 조직을 위한 맞춤형 솔루션)