Zum Hauptinhalt springen

Erkennungsparameterliste

Diese Parameter können nur gesetzt werden, während der Erkennungsprozess nicht läuft.

Dies ist keine vollständige Liste der in Whisper verfügbaren Parameter. Nur die wichtigsten sind hier verfügbar gemacht. Falls nötig, wird diese Liste aktualisiert.

Erkennungsparameter setzen

Setzt die Parameter für die Spracherkennung. Wenn Sie nur bestimmte Parameter ändern möchten, ziehen Sie die Verwendung der einzelnen Setter-Funktionen in Betracht.

Streaming-Standardwerte setzen

Setzt die Standardparameter, die für Streaming-Spracherkennung geeignet sind.

Nicht-Streaming-Standardwerte setzen

Setzt die Standardparameter, die für nicht-streamende Spracherkennung geeignet sind.

Anzahl der Threads setzen

Setzt die Anzahl der Threads, die für die Spracherkennung verwendet werden sollen. Setzen Sie diesen Wert auf 0, um die Anzahl der Kerne zu verwenden.

Sprache setzen

Setzt die für die Spracherkennung zu verwendende Sprache. Muss vom ausgewählten Sprachmodell in den Editor-Einstellungen unterstützt werden.

Das Setzen der Sprache auf Auto verringert die Erkennungsgenauigkeit und Leistung.

Erkannte Sprache abrufen

Ruft die erkannte Sprache von der letzten Erkennung ab. Gibt die Sprache als Enumerationswert zurück.

Hinweis: Diese Funktion funktioniert nur, nachdem eine Erkennung durchgeführt wurde. Sie gibt Auto zurück, wenn die Spracherkennung fehlgeschlagen ist oder nicht durchgeführt wurde. Dies ist besonders nützlich, wenn die automatische Spracherkennung verwendet wird, um zu identifizieren, welche Sprache tatsächlich erkannt wurde.

Sprachcode abrufen

Konvertiert einen Sprach-Enumerationswert in seinen Sprachcode-String (z.B. En -> "en", Fr -> "fr", De -> "de").

Vollständigen Sprachnamen abrufen

Konvertiert einen Sprach-Enumerationswert in seinen vollständigen Sprachnamen (z.B. En -> "Englisch", Fr -> "Französisch", De -> "Deutsch").

Auf Englisch übersetzen setzen

Legt fest, ob die erkannten Wörter ins Englische übersetzt werden sollen. Wenn true, muss das Sprachmodell mehrsprachig sein.

Schrittgröße setzen

Setzt die Schrittgröße in Millisekunden. Bestimmt, wie oft Audiodaten zur Erkennung gesendet werden. Der Standardwert ist 5000 ms (5 Sekunden).

Ohne Kontext setzen

Legt fest, ob frühere Transkriptionen (falls vorhanden) als initiale Eingabeaufforderung für den Decoder verwendet werden sollen.

Einzelnes Segment setzen

Legt fest, ob eine Einzelsegment-Ausgabe erzwungen werden soll (nützlich für Streaming).

Maximale Token setzen

Legt die maximale Anzahl von Token pro Textsegment fest. Verwenden Sie 0 für keine Begrenzung.

Set Speed Up

Legt fest, ob die Erkennung mit einem Phase Vocoder um das 2-fache beschleunigt werden soll. Setzen Sie es auf false, um die Qualität der Ausgabe zu verbessern.

Set Audio Context Size

Legt die Größe des Audio-Kontexts fest. Setzen Sie es auf 0, um die Qualität der Ausgabe zu verbessern.

Set Temperature To Increase

Legt die Temperatur fest, die erhöht werden soll, wenn ein Fallback erfolgt, weil die Decodierung eine der folgenden Schwellenwerte nicht erfüllt.

Set Entropy Threshold

Legt den Entropie-Schwellenwert fest. Wenn das Kompressionsverhältnis höher als dieser Wert ist, wird die Decodierung als fehlgeschlagen behandelt. Ähnlich wie OpenAIs "compression_ratio_threshold".

Set Suppress Blank

Legt fest, ob Leerzeichen, die in den Ausgaben auftauchen, unterdrückt werden sollen.

Set Suppress Non Speech Tokens

Legt fest, ob Nicht-Sprach-Token, die in den Ausgaben auftauchen, unterdrückt werden sollen.

Set Beam Size

Legt die Anzahl der Strahlen (Beams) bei der Strahlensuche (Beam Search) fest. Nur anwendbar, wenn die Temperatur null ist.

Set Initial Prompt

Legt den anfänglichen Prompt für das erste Fenster fest. Dies kann verwendet werden, um der Erkennung Kontext zu liefern, damit sie Wörter mit höherer Wahrscheinlichkeit korrekt vorhersagt, z.B. benutzerdefinierte Vokabeln oder Eigennamen.

Set GPU Acceleration

Legt fest, ob GPU-Beschleunigung für die Spracherkennung verwendet werden soll (derzeit nur unter Windows anwendbar).

Set GPU Device ID

Legt die zu verwendende GPU-Geräte-ID für die Spracherkennung fest. Der Standardwert ist 0. Dies ist nützlich für Systeme mit mehreren GPUs, um anzugeben, welche GPU für den Erkennungsprozess verwendet werden soll. Wenn die angegebene GPU-Geräte-ID ungültig ist, wird stattdessen der erste verfügbare GPU-Geräteindex verwendet.