Ses İşleme Kılavuzu

Bu kılavuz, dudak senkronizasyonu oluşturucularınıza ses verisi beslemek için farklı ses giriş yöntemlerinin nasıl kurulacağını kapsar. Devam etmeden önce Kurulum Kılavuzu'nu tamamladığınızdan emin olun.

Ses Giriş İşleme

Ses girişini işlemek için bir yöntem ayarlamanız gerekiyor. Ses kaynağınıza bağlı olarak bunu yapmanın birkaç yolu vardır.

Bu yaklaşım, mikrofona konuşurken gerçek zamanlı olarak dudak senkronizasyonu gerçekleştirir:

Standart Model
Gerçekçi Model
Ruh Hali Etkinleştirilmiş Gerçekçi Model

Runtime Audio Importer kullanarak bir Yakalanabilir Ses Dalgası oluşturun
- Linux ve Pixel Streaming için, Pixel Streaming Capturable Sound Wave kullanın
Ses yakalamaya başlamadan önce, OnPopulateAudioData temsilcisine bağlanın
Bağlı fonksiyonda, Runtime Viseme Generator'ünüzden ProcessAudioData'yı çağırın
Mikrofondan ses yakalamayı başlatın

Kopyalanabilir düğümler.

Lip Sync During Audio Capture

Gerçekçi Model, Standart Model ile aynı ses işleme iş akışını kullanır, ancak VisemeGenerator yerine RealisticLipSyncGenerator değişkenini kullanır.

Kopyalanabilir düğümler.

Realistic Lip Sync During Audio Capture

Ruh Hali Etkin Model, aynı ses işleme iş akışını kullanır ancak MoodMetaHumanLipSyncGenerator değişkeni ve ek ruh hali yapılandırma yetenekleriyle birlikte gelir.

Kopyalanabilir düğümler.

Mood-Enabled Lip Sync During Audio Capture

Bu yaklaşım, bir mikrofondan ses yakalar ve ardından dudak senkronizasyonu ile geri oynatır:

Standart Model
Gerçekçi Model
Ruh Hali Etkinleştirilmiş Gerçekçi Model

Runtime Audio Importer kullanarak bir Yakalanabilir Ses Dalgası oluşturun
- Linux ve Pixel Streaming için, Pixel Streaming Capturable Sound Wave kullanın
Mikrofondan ses yakalamayı başlat
Yakalanabilir ses dalgasını oynatmadan önce, OnGeneratePCMData temsilcisine bağlan
Bağlı fonksiyonda, Runtime Viseme Generator'ünüzden ProcessAudioData'yı çağırın

Kopyalanabilir düğümler.

Lip Sync During Audio Playback

Gerçekçi Model, Standart Model ile aynı ses işleme iş akışını kullanır, ancak VisemeGenerator yerine RealisticLipSyncGenerator değişkenini kullanır.

Kopyalanabilir düğümler.

Realistic Lip Sync During Audio Playback

Ruh Hali Etkin Model, aynı ses işleme iş akışını kullanır ancak MoodMetaHumanLipSyncGenerator değişkeni ve ek ruh hali yapılandırma yetenekleriyle birlikte gelir.

Kopyalanabilir düğümler.

Mood-Enabled Lip Sync During Audio Playback

Normal
Akış

Bu yaklaşım, yerel TTS kullanarak metinden konuşma sentezler ve dudak senkronizasyonu gerçekleştirir.

Standart Model
Gerçekçi Model
Ruh Hali Etkinleştirilmiş Gerçekçi Model

Metinlerden konuşma oluşturmak için Runtime Text To Speech kullanın
Sentezlenen sesi içe aktarmak için Runtime Audio Importer kullanın
İçe aktarılan ses dalgasını oynatmadan önce, OnGeneratePCMData temsilcisine bağlanın
Bağlı fonksiyonda, Runtime Viseme Generator'ünüzden ProcessAudioData fonksiyonunu çağırın

Kopyalanabilir düğümler.

Lip Sync From Synthesized Speech

Gerçekçi Model, Standart Model ile aynı ses işleme iş akışını kullanır, ancak VisemeGenerator yerine RealisticLipSyncGenerator değişkenini kullanır.

Kopyalanabilir düğümler.

Mood-Enabled Lip Sync From Local TTS

Ruh Hali Etkin Model, aynı ses işleme iş akışını kullanır ancak MoodMetaHumanLipSyncGenerator değişkeni ve ek ruh hali yapılandırma yetenekleriyle birlikte gelir.

Kopyalanabilir düğümler.

Mood-Enabled Lip Sync From Local TTS

Bu yaklaşım, gerçek zamanlı dudak senkronizasyonu ile akışlı metin-konuşma sentezini kullanır.

Standart Model
Gerçekçi Model
Ruh Hali Etkinleştirilmiş Gerçekçi Model

Metinlerden akışlı konuşma oluşturmak için Runtime Text To Speech kullanın
Sentezlenen sesi içe aktarmak için Runtime Audio Importer kullanın
Akışlı ses dalgasını oynatmadan önce, OnGeneratePCMData temsilcisine bağlanın
Bağlı fonksiyonda, Runtime Viseme Generator'ınızdan ProcessAudioData çağrısı yapın

Kopyalanabilir düğümler.

Lip Sync From Synthesized Streaming Speech

Gerçekçi Model, Standart Model ile aynı ses işleme iş akışını kullanır, ancak VisemeGenerator yerine RealisticLipSyncGenerator değişkenini kullanır.

Kopyalanabilir düğümler.

Realistic Lip Sync From Streaming Local TTS

Ruh Hali Etkin Model, aynı ses işleme iş akışını kullanır ancak MoodMetaHumanLipSyncGenerator değişkeni ve ek ruh hali yapılandırma yetenekleri ile birlikte çalışır.

Kopyalanabilir düğümler.

Mood-Enabled Lip Sync From Streaming Local TTS

Normal
Akış

Bu yaklaşım, yapay zeka hizmetlerinden (OpenAI veya ElevenLabs) sentezlenmiş konuşma üretmek ve dudak senkronizasyonu gerçekleştirmek için Runtime AI Chatbot Integrator eklentisini kullanır.

Standart Model
Gerçekçi Model
Ruh Hali Etkinleştirilmiş Gerçekçi Model

Harici API'ler (OpenAI, ElevenLabs vb.) kullanarak metinden konuşma oluşturmak için Runtime AI Chatbot Integrator kullanın
Sentezlenen ses verilerini içe aktarmak için Runtime Audio Importer kullanın
İçe aktarılan ses dalgasını oynatmadan önce, OnGeneratePCMData delegate'ine bağlanın
Bağlı fonksiyonda, Runtime Viseme Generator'ünüzden ProcessAudioData'yı çağırın

Kopyalanabilir düğümler.

Lip Sync From Externally Synthesized Speech

Gerçekçi Model, Standart Model ile aynı ses işleme iş akışını kullanır, ancak VisemeGenerator yerine RealisticLipSyncGenerator değişkenini kullanır.

Kopyalanabilir düğümler.

Realistic Lip Sync From Externally Synthesized Speech

Ruh Hali Etkin Model, aynı ses işleme iş akışını kullanır ancak MoodMetaHumanLipSyncGenerator değişkeni ve ek ruh hali yapılandırma yetenekleri ile birlikte çalışır.

Kopyalanabilir düğümler.

Mood-Enabled Lip Sync From Externally Synthesized Speech

Bu yaklaşım, yapay zeka hizmetlerinden (OpenAI veya ElevenLabs) sentezlenmiş akışlı konuşma üretmek ve dudak senkronizasyonu gerçekleştirmek için Runtime AI Chatbot Integrator eklentisini kullanır.

Standart Model
Gerçekçi Model
Ruh Hali Etkinleştirilmiş Gerçekçi Model

Runtime AI Chatbot Integrator kullanarak akışlı TTS API'lerine (ElevenLabs Streaming API gibi) bağlanın
Sentezlenmiş ses verilerini içe aktarmak için Runtime Audio Importer kullanın
Akışlı ses dalgasını oynatmadan önce, OnGeneratePCMData temsilcisine bağlanın
Bağlı fonksiyonda, Runtime Viseme Generator'ünüzden ProcessAudioData fonksiyonunu çağırın

Kopyalanabilir düğümler.

Lip Sync From Externally Synthesized Streaming Speech

Gerçekçi Model, Standart Model ile aynı ses işleme iş akışını kullanır, ancak VisemeGenerator yerine RealisticLipSyncGenerator değişkenini kullanır.

Kopyalanabilir düğümler.

Realistic Lip Sync From Externally Synthesized Streaming Speech

Ruh Hali Etkin Model, aynı ses işleme iş akışını kullanır ancak MoodMetaHumanLipSyncGenerator değişkeni ve ek ruh hali yapılandırma yetenekleriyle birlikte gelir.

Kopyalanabilir düğümler.

Mood-Enabled Lip Sync From Externally Synthesized Streaming Speech

Bu yaklaşım, dudak senkronizasyonu için önceden kaydedilmiş ses dosyalarını veya ses tamponlarını kullanır:

Standart Model
Gerçekçi Model
Ruh Hali Etkinleştirilmiş Gerçekçi Model

Diskten veya bellekten bir ses dosyasını içe aktarmak için Runtime Audio Importer kullanın
İçe aktarılan ses dalgasını oynatmadan önce, onun OnGeneratePCMData temsilcisine bağlanın
Bağlı fonksiyonda, Runtime Viseme Generator'ünüzden ProcessAudioData fonksiyonunu çağırın
İçe aktarılan ses dalgasını oynatın ve dudak senkronizasyonu animasyonunu gözlemleyin

Kopyalanabilir düğümler.

Lip Sync From Audio File

Gerçekçi Model, Standart Model ile aynı ses işleme iş akışını kullanır, ancak VisemeGenerator yerine RealisticLipSyncGenerator değişkenini kullanır.

Kopyalanabilir düğümler.

Realistic Lip Sync From Audio File

Ruh Hali Etkin Model, aynı ses işleme iş akışını kullanır ancak MoodMetaHumanLipSyncGenerator değişkeni ve ek ruh hali yapılandırma yetenekleri ile birlikte çalışır.

Kopyalanabilir düğümler.

Mood-Enabled Lip Sync From Audio File

Bir tampondan akan ses verisi akışı için ihtiyacınız olan:

Standart Model
Gerçekçi Model
Ruh Hali Etkin Gerçekçi Model

Ses verileri float PCM formatında (kayan noktalı örneklerden oluşan bir dizi) akış kaynağınızdan elde edilebilir (veya daha fazla formatı desteklemek için Runtime Audio Importer kullanın)
Örnekleme hızı ve kanal sayısı
Ses parçaları kullanılabilir hale geldikçe, Runtime Viseme Generator'ınızdan ProcessAudioData'yı bu parametrelerle çağırın

Kopyalanabilir düğümler.

Lip Sync From Streaming Source

Gerçekçi Model, Standart Model ile aynı ses işleme iş akışını kullanır, ancak VisemeGenerator yerine RealisticLipSyncGenerator değişkenini kullanır.

Kopyalanabilir düğümler.

Realistic Lip Sync From Streaming Source

Ruh Hali Etkin Model, aynı ses işleme iş akışını kullanır ancak MoodMetaHumanLipSyncGenerator değişkeni ve ek ruh hali yapılandırma yetenekleriyle birlikte gelir.

Kopyalanabilir düğümler.

Mood-Enabled Lip Sync From Streaming Source

Not: Akışlı ses kaynakları kullanırken, bozuk oynatmayı önlemek için ses oynatma zamanlamasını uygun şekilde yönettiğinizden emin olun. Daha fazla bilgi için Akışlı Ses Dalgası dokümantasyonuna bakın.

İşlem Performansı İpuçları

Chunk Boyutu: ProcessingChunkSize yapılandırma seçeneğini (örneğin 320, 480 veya 640 örneğe) artırmak, kalite veya yanıt verme hızı üzerinde minimum etkiyle gecikmeyi belirgin şekilde iyileştirebilir.
Model Türü: Gerçekçi modeller kullanırken, Yüksek Düzeyde Optimize Edilmiş model türüne (varsayılan olarak seçili) geçmek performansı artırabilir. Orijinal modelin, özellikle gürültülü seslerde, biraz daha iyi kalite sağlayabileceğini unutmayın.
Tampon Yönetimi: Ruh hali destekli model, sesi 320 örneklik çerçeveler halinde işler (16kHz'de 20ms). Optimum performans için ses giriş zamanlamanızın bununla uyumlu olduğundan emin olun.
Generator Yeniden Oluşturma: Gerçekçi modellerle güvenilir çalışma için, bir süre hareketsiz kaldıktan sonra yeni ses verisi beslemek istediğinizde generator'ü her seferinde yeniden oluşturun. Açıklama için Sorun Giderme bölümündeki Generator Yeniden Oluşturma bölümüne bakın.

Sonraki Adımlar

Ses işleme kurulumunu tamamladıktan sonra şunları yapmak isteyebilirsiniz:

Dudak senkronizasyonu davranışınızı ince ayarlamak için Yapılandırma seçenekleri hakkında bilgi edinin
Gelişmiş ifade gücü için kahkaha animasyonu ekleyin
Yapılandırma kılavuzunda açıklanan katmanlama tekniklerini kullanarak dudak senkronizasyonunu mevcut yüz animasyonlarıyla birleştirin

Ses Giriş İşleme​

İşlem Performansı İpuçları​

Sonraki Adımlar​

Ses Giriş İşleme

İşlem Performansı İpuçları

Sonraki Adımlar