본문으로 건너뛰기

개요

Runtime Text To Speech 문서

Runtime Text To Speech는 실시간, 오프라인, 크로스 플랫폼 텍스트 음성 합성을 가능하게 하는 플러그인입니다. 51개 언어, 2800개 이상의 음성, 75가지 음성 품질을 지원하며, 스튜디오급 출력을 제공하는 오픈 소스 음성 모델군인 Kokoro를 이제 제공합니다. 이 플러그인은 빠르고 가벼우며 자연스러운 음성이 필요한 게임, 앱, 프로젝트에 이상적입니다.

현재, 이 플러그인은 다음 플랫폼을 지원합니다: Windows, Linux, Mac, Android (Meta Quest 포함), iOS.

📹 동작 영상 보기
YouTube 데모를 시청하거나 (이전 비디오) Piper Samples에서 일반 음성 샘플을 테스트하세요.

Kokoro

이 플러그인은 Kokoro 음성 모델(Kokoro v1.1 포함)도 지원합니다 - 최근 Hugging Face에 게시된 고품질 오픈 소스 TTS 아키텍처입니다.

  • 151개의 고품질 모델 8개 언어:
    🇺🇸 영어 (미국) • 🇬🇧 영어 (영국) • 🇨🇳 중국어 (간체) • 🇪🇸 스페인어 • 🇧🇷 포르투갈어 • 🇮🇳 힌디어 • 🇫🇷 프랑스어 • 🇮🇹 이탈리아어
  • 실시간 미리보기 가능: Kokoro 음성 테스트
왜 Kokoro인가?

Kokoro 음성 모델은 현재 이용 가능한 최고 품질의 오픈 소스 TTS 솔루션 중 하나입니다.

주요 기능

  • 완전 오프라인 합성: 인터넷 연결이 필요하지 않음
  • 다양한 합성 모드:
    • 일반 합성: 전체 텍스트에 대한 완전한 오디오 생성
    • 스트리밍 합성: 생성되는 대로 오디오 청크를 실시간으로 처리
  • 취소 지원: 진행 중인 합성 작업을 언제든지 중단
  • 크로스 플랫폼 호환성: 모든 주요 플랫폼에서 작동
  • Blueprint 및 C++ 지원: 두 환경 모두에서 전체 API 접근 가능

설치

시작하려면 최초 실행 시 플러그인 설정을 통해 음성 모델을 설치하세요. 설치 후 프로젝트에서 플러그인을 사용할 수 있습니다. 자세한 지침은 플러그인 사용 방법 페이지를 참조하세요.

플러그인 세부 사항

이 플러그인은 Piper, Kokoro, ONNX Runtime 라이브러리를 사용하여 실시간 텍스트 음성 합성을 제공합니다. 플러그인을 통해 에디터에서 다양한 음성 모델을 다운로드하고 관리할 수 있으며, 이를 프로젝트와 함께 패키징할 수 있습니다.

핵심 기능은 텍스트 입력 처리와 합성을 위한 음성 모델 선택으로 구성됩니다. 일부 음성 모델은 여러 화자를 지원합니다 - 예를 들어, English LibriTTS에는 900개 이상의 다양한 화자가 포함되어 있으며, German Thorsten Emotional은 7명의 화자 등이 있습니다.

출력은 해당 샘플 레이트와 채널 수를 가진 PCM 오디오 데이터(float 형식)입니다. 이 데이터는 두 가지 방식으로 처리될 수 있습니다:

  • 일반 합성: 합성이 완료되면 완전한 오디오 데이터를 수신
  • 스트리밍 합성: 오디오 데이터가 생성되는 대로 청크로 수신하여 실시간 처리가 가능

이 원시 오디오 데이터를 재생 가능한 사운드 웨이브로 변환하려면 일반적으로 Runtime Audio Importer 플러그인이 필요합니다. 이 플러그인은 일반 및 스트리밍 재생 기능을 모두 제공합니다.

추가 리소스

Join our Discord
online · support