Runtime Speech Recognizer
Runtime Speech Recognizer 플러그인의 문서입니다.
- Fab에서 받기
- 데모 다운로드 (Windows)
- Discord 지원 서버
- 비디오 튜토리얼
- 맞춤 개발: [email protected] (팀 및 조직을 위한 맞춤형 솔루션)
📄️ 개요
Runtime Speech Recognizer Documentation
📄️ 플러그인 사용 방법
Runtime Speech Recognizer 플러그인은 입력 오디오 데이터에서 단어를 인식하도록 설계되었습니다. 이 플러그인은 엔진과 함께 작동하도록 약간 수정된 whisper.cpp 버전을 사용합니다. 플러그인을 사용하려면 다음 단계를 따르세요:
📄️ 언어 모델 사용 방법
모델 선택, 다운로드 및 패키징
📄️ 인식 매개변수 목록
이러한 매개변수는 인식기가 실행되고 있지 않을 때만 설정할 수 있습니다.
📄️ 지원되는 언어
다음은 사용 가능한 언어 모델에서 지원하는 언어의 전체 목록입니다.
📄️ 명령어 인식
레벤슈타인 유사도 계산
📄️ 멈춤 최소화
이 가이드는 RuntimeSpeechRecognizer 플러그인에서 발생하는 두 가지 일반적인 멈춤 현상에 대한 솔루션을 제시하여 성능 영향을 줄이는 방법을 설명합니다.
📄️ 문제 해결
대부분의 문제는 언어 모델 스테이징과 관련이 있으며, 이는 패키지된 빌드에서 문제를 일으킬 수 있습니다. 즉, 다음과 같은 로그를 접할 수 있습니다:
📄️ 데모 프로젝트
윈도우용 패키지 데모 프로젝트.
📄️ 성능 개선 방법
Windows 플랫폼에서는 GPU 가속을 위해 Vulkan을 사용하며, 이를 통해 인식 프로세스가 크게 빨라집니다. 다른 플랫폼에서는 플러그인이 CPU + intrinsics를 사용하여 가속합니다. 그러나 아래의 권장 사항을 따르면 플러그인의 성능을 더욱 향상시킬 수 있습니다: