Zum Hauptinhalt springen

Liste der Erkennungsparameter

Diese Parameter können nur eingestellt werden, wenn der Recognizer nicht läuft.

Dies ist keine vollständige Liste aller in Whisper verfügbaren Parameter. Nur die wichtigsten werden hier aufgeführt. Falls nötig, wird diese Liste aktualisiert.

Recognition-Parameter setzen

Setzt die Parameter für Speech Recognition. Wenn du nur bestimmte Parameter ändern möchtest, verwende die entsprechenden Setter-Funktionen.

Streaming-Standardwerte setzen

Setzt die Standardparameter, die für Streaming Speech Recognition geeignet sind.

Nicht-Streaming-Standardwerte setzen

Setzt die Standardparameter, die für Non-Streaming Speech Recognition geeignet sind.

Anzahl der Threads setzen

Setzt die Anzahl der Threads für Speech Recognition. Setze diesen Wert auf 0, um die Anzahl der CPU-Kerne zu verwenden.

Sprache setzen

Setzt die zu verwendende Sprache für Speech Recognition. Diese muss vom ausgewählten Sprachmodell in den Editor-Einstellungen unterstützt werden.

Wenn die Sprache auf Auto gesetzt wird, verringert sich die Erkennungsgenauigkeit und Leistung.

Übersetze ins Englische setzen

Legt fest, ob die erkannten Wörter ins Englische übersetzt werden sollen. Falls true, muss das Sprachmodell mehrsprachig sein.

Schrittgröße setzen

Setzt die Schrittgröße in Millisekunden. Bestimmt, wie oft Audiodaten zur Erkennung gesendet werden. Der Standardwert ist 5000 ms (5 Sekunden).

Kein Kontext setzen

Legt fest, ob die bisherige Transkription (falls vorhanden) als Initial Prompt für den Decoder verwendet wird.

Einzelnes Segment setzen

Legt fest, ob die Ausgabe auf ein einzelnes Segment erzwingt wird (nützlich für Streaming).

Maximale Tokens setzen

Setzt die maximale Anzahl an Tokens pro Textsegment. 0 bedeutet kein Limit.

Speed Up setzen

Legt fest, ob die Erkennung mithilfe des Phase Vocoder um den Faktor 2 beschleunigt werden soll. Auf false setzen, um die Qualität des Outputs zu verbessern.

Audio Context Size setzen

Setzt die Größe des Audio-Kontexts. Auf 0 setzen, um die Qualität des Outputs zu verbessern.

Temperatur für Steigerung setzen

Setzt die Temperatur, die beim Zurückfallen erhöht werden soll, wenn das Decoding die untenstehenden Schwellenwerte nicht erfüllt.

Entropie-Schwellenwert setzen

Setzt den Entropie-Schwellenwert. Wenn das Kompressionsverhältnis diesen Wert überschreitet, wird das Decoding als fehlgeschlagen betrachtet. Ähnlich zu OpenAIs „compression_ratio_threshold“.

Suppress Blank setzen

Legt fest, ob Lücken/Blanks in der Ausgabe unterdrückt werden sollen.

Suppress Non Speech Tokens setzen

Legt fest, ob Nicht-Sprach-Tokens in der Ausgabe unterdrückt werden sollen.

Beam Size setzen

Setzt die Anzahl der Beams im Beam Search. Nur anwendbar, wenn die Temperatur null ist.

Initial Prompt setzen

Setzt das Initial Prompt für das erste Fenster. Dies kann verwendet werden, um Kontext für die Erkennung bereitzustellen und die Wahrscheinlichkeit zu erhöhen, dass die Wörter korrekt vorhergesagt werden, z. B. für benutzerdefinierte Wortlisten oder Eigennamen.

GPU-Beschleunigung setzen

Legt fest, ob GPU Acceleration für Speech Recognition verwendet werden soll (aktuell nur unter Windows verfügbar).

GPU-Geräte-ID setzen

Setzt die GPU Device ID, die für Speech Recognition verwendet werden soll. Der Standardwert ist 0. Dies ist für Systeme mit mehreren GPUs nützlich, um festzulegen, welche GPU für den Recognition-Prozess verwendet werden soll. Falls die angegebene GPU Device ID ungültig ist, wird stattdessen die erste verfügbare GPU-Gerätenummer verwendet.