Ana içeriğe geç

Genel Bakış

Runtime Speech Recognizer Dokümantasyonu

Runtime Speech Recognizer, gerçek zamanlı, çevrimdışı konuşma tanıma sağlayan çapraz platform bir eklentidir. Whisper OpenAI teknolojisine, özellikle de whisper.cpp kütüphanesine dayanır ve eklenti ayarlarında önceden seçilmiş, otomatik dil algılama yeteneklerine sahip birden fazla dil modelini destekler.

Nasıl kurulur

İlk çalıştırmada, dil modellerini yükleyin (bunu otomatik olarak yapmanızı isteyen bir iletişim kutusu görünecektir).

Temel açıklama

Bu eklenti, izin verici MIT lisansı altında kullanılabilen whisper.cpp kütüphanesine dayanan gelişmiş algoritmalar kullanarak gerçek zamanlı konuşma tanıma sağlar. Gelen ses verisini (bir akış veya akış dışı girdi olarak sağlanan, örneğin bir dosya veya ses verisi tamponu) önceden eğitilmiş dil modelleriyle eşleştirir. Çok dilli modeller kullanılırken, eklenti konuşulan dili otomatik olarak algılayabilir ve bu bilgiyi tanınan metinle birlikte sağlayabilir.

Eklenti, platforma bağlı olarak farklı GPU hızlandırma yöntemleri kullanır:

  • Windows: Tanıma sürecini önemli ölçüde hızlandıran GPU hızlandırma için Vulkan kullanır
  • Mac ve iOS: Windows'taki Vulkan hızlandırmasıyla karşılaştırılabilir, hatta daha hızlı performans sunan GPU hızlandırma için Metal kullanır
  • Diğer platformlar: Hızlandırma için CPU + intrinsics kullanır (yerel olarak çalıştırıldığında Android veya Meta Quest gibi platformlarda daha yavaş olabilir)

Ek Kaynaklar