본문으로 건너뛰기

인식 매개변수 목록

이러한 매개변수는 인식기가 실행되고 있지 않을 때만 설정할 수 있습니다.

이 목록은 Whisper에서 사용할 수 있는 모든 매개변수를 모두 포함하지 않습니다. 여기에는 가장 중요한 매개변수만 노출됩니다. 필요시 이 목록은 업데이트됩니다.

인식 매개변수 설정

음성 인식을 위한 매개변수를 설정합니다. 특정 매개변수만 변경하려면 개별 설정 함수를 사용하는 것이 좋습니다.

스트리밍 기본값 설정

스트리밍 음성 인식에 적합한 기본 매개변수를 설정합니다.

비스트리밍 기본값 설정

비스트리밍 음성 인식에 적합한 기본 매개변수를 설정합니다.

스레드 수 설정

음성 인식에 사용할 스레드 수를 설정합니다. 이 값을 0으로 설정하면 코어 수를 사용합니다.

언어 설정

음성 인식에 사용할 언어를 설정합니다. 편집기 설정에서 선택한 언어 모델이 지원되어야 합니다.

언어를 자동으로 설정하면 인식 정확도와 성능이 떨어집니다.

영어로 번역 설정

인식된 단어를 영어로 번역할지 여부를 설정합니다. true인 경우, 언어 모델은 다국어를 지원해야 합니다.

단계 크기 설정

단위 크기를 밀리초 단위로 설정합니다. 인식을 위해 오디오 데이터를 얼마나 자주 전송할지 결정합니다. 기본값은 5000 ms (5초)입니다.

컨텍스트 없음 설정

과거 전사를 디코더의 초기 프롬프트로 사용할지 여부를 설정합니다.

단일 세그먼트 설정

단일 세그먼트 출력을 강제할지 여부를 설정합니다 (스트리밍에 유용).

최대 토큰 수 설정

텍스트 세그먼트당 최대 토큰 수를 설정합니다. 제한 없음은 0을 사용하세요.

속도 증가 설정

Phase Vocoder를 사용하여 인식을 2배로 가속할지 여부를 설정합니다. 출력을 개선하려면 false로 설정합니다.

오디오 컨텍스트 크기 설정

오디오 컨텍스트의 크기를 설정합니다. 출력을 개선하려면 0으로 설정합니다.

증가할 온도 설정

디코딩이 아래 임계값 중 하나를 충족하지 못할 때 후퇴할 때 증가할 온도를 설정합니다.

엔트로피 임계값 설정

엔트로피 임계값을 설정합니다. 압축 비율이 이 값보다 높으면 디코딩을 실패로 간주합니다. OpenAI의 "compression_ratio_threshold"와 유사합니다.

빈칸抑制 설정

출력에 빈칸이 나타나는 것을 억제할지 여부를 설정합니다.

비음성 토큰抑制 설정

출력에 비음성 토큰이 나타나는 것을 억제할지 여부를 설정합니다.

빔 크기 설정

빔 검색에서의 빔 수를 설정합니다. 온도가 0일 때만 적용됩니다.

초기 프롬프트 설정

첫 번째 창을 위한 초기 프롬프트를 설정합니다. 이는 맞춤형 어휘나 고유명사 등의 문맥을 제공하여 인식이 단어를 더 정확하게 예측할 수 있도록 사용할 수 있습니다.

GPU 장치 ID 설정

음성 인식에 사용할 GPU 장치 ID를 설정합니다. 기본값은 0입니다. 다중 GPU가 있는 시스템에서 어떤 GPU를 인식 과정에 사용할지 지정하는 데 유용합니다. 지정된 GPU 장치 ID가 유효하지 않은 경우, 사용 가능한 첫 번째 GPU 장치 인덱스를 대신 사용합니다.