본문으로 건너뛰기

인식 파라미터 리스트

이 파라미터들은 인식기가 실행되지 않은 상태에서만 설정할 수 있습니다.

이것은 Whisper에서 사용 가능한 모든 파라미터를 나열한 것은 아닙니다. 여기서는 가장 중요한 파라미터들만 노출되어 있습니다. 필요하다면, 이 리스트는 업데이트될 수 있습니다.

인식 파라미터 설정

음성 인식을 위한 파라미터를 설정합니다. 특정 파라미터만 변경하려는 경우, 개별 setter 함수를 사용하는 것을 고려하세요.

스트리밍 기본값 설정

스트리밍 음성 인식에 적합한 기본 파라미터를 설정합니다.

비스트리밍 기본값 설정

비스트리밍 음성 인식에 적합한 기본 파라미터를 설정합니다.

스레드 수 설정

음성 인식을 위해 사용할 스레드 수를 설정합니다. 0으로 설정하면 코어 수만큼 사용합니다.

언어 설정

음성 인식에 사용할 언어를 설정합니다. 에디터 설정에서 선택한 언어 모델이 지원해야 합니다.

언어를 Auto로 설정할 경우 인식 정확도와 성능이 저하됩니다.

영어로 번역 설정

인식된 단어를 영어로 번역할지 설정합니다. true로 설정할 경우, 언어 모델이 다국어여야 합니다.

스텝 사이즈 설정

스텝 사이즈(단위: 밀리초)를 설정합니다. 얼마나 자주 오디오 데이터를 인식에 보낼지를 결정합니다. 기본값은 5000ms(5초)입니다.

컨텍스트 미사용 설정

과거 전사(있을 경우)를 디코더의 초기 프롬프트로 사용할지 설정합니다.

단일 세그먼트 설정

단일 세그먼트 출력을 강제로 사용할지 설정합니다(스트리밍에 유용).

최대 토큰 수 설정

텍스트 세그먼트당 최대 토큰 수를 설정합니다. 제한이 없으려면 0을 사용하세요.

속도 향상 설정

Phase Vocoder를 사용해 인식 속도를 2배로 높일지 설정합니다. 결과 품질을 향상하려면 false로 설정하세요.

오디오 컨텍스트 사이즈 설정

오디오 컨텍스트의 크기를 설정합니다. 품질 향상을 위해 0으로 설정하세요.

온도 증가 설정

아래 임계값을 만족하지 못해 디코딩이 실패할 때 증가시킬 온도를 설정합니다.

엔트로피 임계값 설정

엔트로피 임계값을 설정합니다. 압축 비율이 이 값보다 높으면 디코딩이 실패한 것으로 간주합니다. OpenAI의 "compression_ratio_threshold"와 유사합니다.

빈칸 억제 설정

출력에 빈칸이 나타나는 것을 억제할지 설정합니다.

비음성 토큰 억제 설정

출력에 비음성 토큰이 나타나는 것을 억제할지 설정합니다.

빔 사이즈 설정

빔서치에서 빔의 개수를 설정합니다. 온도가 0일 때만 적용됩니다.

초기 프롬프트 설정

첫 번째 윈도우에 대한 초기 프롬프트를 설정합니다. 이는 사용자 정의 어휘나 고유명사 등으로 인식 정확도를 높이기 위한 컨텍스트를 제공하는 데 사용할 수 있습니다.

GPU 가속 설정

음성 인식을 위해 GPU 가속을 사용할지 설정합니다(현재는 Windows에서만 적용).

GPU 디바이스 ID 설정

음성 인식에 사용할 GPU 디바이스 ID를 설정합니다. 기본값은 0입니다. 멀티 GPU 시스템에서 어떤 GPU를 인식에 사용할지 지정하는 데 유용합니다. 만약 지정한 GPU 디바이스 ID가 잘못되었으면, 사용 가능한 첫 번째 GPU 디바이스 인덱스가 대신 사용됩니다.