본문으로 건너뛰기

성능 향상 방법

이 플러그인은 플랫폼에 따라 다양한 GPU 가속 방법을 사용합니다: Windows에서는 Vulkan, Mac 및 iOS 플랫폼에서는 Metal을 사용하여 인식 프로세스를 크게 가속화합니다. 다른 플랫폼에서는 CPU + 내장 함수(intrinsics)를 사용하여 가속합니다. 그러나 아래 권장 사항을 따라 플러그인의 성능을 더욱 향상시킬 수 있습니다:

  1. Voice Activity Detection (VAD) 사용

    고정된 시간 간격을 기다리는 대신 사용자가 말을 멈추자마자 음성을 인식하도록 전송함으로써 인식기 반응성을 향상시키기 위해 Voice Activity Detection 사용을 강력히 권장합니다. 특히 Silero VAD가 이 목적에 적합합니다. 자세한 구현 방법은 Voice Activity Detection 문서를 참조하세요.

  2. Step Size 감소

    기본적으로 step size는 5000ms(5초)로 설정되어 있어 캡처 중에 오디오 데이터가 5초마다 인식됩니다. 오디오 데이터를 더 자주 인식하려면 step size를 500ms(0.5초)와 같이 줄일 수 있습니다. 그러나 VAD가 활성화된 경우(특별한 요구사항이 없는 한 일반적으로 권장됨) step size 감소에 의존하지 않는 것이 좋습니다. Voice Activated Command Recognition이나 Auto-Initializing Voice Recognition with Final Buffer Processing와 같은 일반적인 설정에서 VAD를 사용할 경우, 사용자가 말을 멈추면 음성이 즉시 인식됩니다.

  3. 더 작은 언어 모델 사용

    모델 크기를 줄이고 성능을 향상시키기 위해 Tiny Quantized (Q5_1)와 같은 더 작은 언어 모델을 고려할 수 있습니다. 언어 모델 선택 방법에 대한 지침은 여기에서 확인할 수 있습니다.

  4. 인식 상태 관리 최적화

    마이크 입력 작업 시 음성 인식기의 불필요한 중지 및 시작을 피하세요. 리소스 재할당이 필요한 StopSpeechRecognitionStartSpeechRecognition을 자주 호출하는 대신 오디오 입력을 직접 제어하는 것을 고려하세요. 예를 들어 캡처 가능한 사운드 웨이브의 경우 인식 스레드를 활성 상태로 유지하면서 오디오 흐름을 관리하기 위해 StopCaptureStartCapture를 사용하세요.