본문으로 건너뛰기

인식 매개변수 목록

이 매개변수들은 인식기가 실행되지 않을 때만 설정할 수 있습니다.

이 목록은 Whisper에서 사용할 수 있는 매개변수들 중 중요한 일부만 나열한 것입니다. 필요에 따라 이 목록은 업데이트될 수 있습니다.

인식 매개변수 설정

음성 인식을 위한 매개변수를 설정합니다. 특정 매개변수만 변경하고 싶다면 개별 설정자 함수를 사용하는 것을 고려하세요.

스트리밍 기본값 설정

스트리밍 음성 인식에 적합한 기본 매개변수를 설정합니다.

비스트리밍 기본값 설정

비스트리밍 음성 인식에 적합한 기본 매개변수를 설정합니다.

스레드 수 설정

음성 인식을 위해 사용할 스레드 수를 설정합니다. 0으로 설정하면 코어 수가 사용됩니다.

언어 설정

음성 인식을 위해 사용할 언어를 설정합니다. Editor 설정에서 선택한 언어 모델이 지원해야 합니다.

언어를 Auto로 설정하면 인식 정확도와 성능이 저하됩니다.

영어로 번역 설정

인식된 단어를 영어로 번역할지 여부를 설정합니다. true인 경우, 언어 모델은 다국어를 지원해야 합니다.

스텝 크기 설정

스텝 크기를 밀리초 단위로 설정합니다. 음성 데이터를 얼마나 자주 전송할지 결정합니다. 기본값은 5000 ms (5초)입니다.

무 맥락 설정

과거 전사(있을 경우)를 디코더의 초기 프롬프트로 사용할지 여부를 설정합니다.

단일 세그먼트 설정

단일 세그먼트 출력을 강제할지 여부를 설정합니다 (스트리밍에 유용).

최대 토큰 수 설정

텍스트 세그먼트당 최대 토큰 수를 설정합니다. 0을 사용하면 제한이 없습니다.

속도 향상 설정

Phase Vocoder를 사용하여 인식을 2배로 빠르게 할지 여부를 설정합니다. 결과물의 품질을 개선하려면 false로 설정하세요.

오디오 컨텍스트 크기 설정

오디오 컨텍스트의 크기를 설정합니다. 결과물의 품질을 개선하려면 0으로 설정하세요.

온도 증가 설정

디코딩이 아래의 임계값 중 하나를 충족하지 못했을 때 점프백할 때 온도를 증가시킵니다.

엔트로피 임계값 설정

엔트로피 임계값을 설정합니다. 압축 비율이 이 값보다 높으면 디코딩을 실패로 간주합니다. OpenAI의 "compression_ratio_threshold"와 유사합니다.

공백 억제 설정

출력에 공백이 표시되지 않도록 억제할지 여부를 설정합니다.

비음성 토큰 억제 설정

출력에 비음성 토큰이 표시되지 않도록 억제할지 여부를 설정합니다.

빔 크기 설정

빔 검색에서의 빔 수를 설정합니다. 온도가 0일 때만 적용됩니다.

초기 프롬프트 설정

첫 번째 창을 위한 초기 프롬프트를 설정합니다. 이를 통해 인식 시 맞춤형 어휘나 고유명사 등 맥락을 제공하여 단어를 보다 정확하게 예측할 수 있습니다.