오디오 처리 가이드

이 가이드는 입형 생성기에 오디오 데이터를 공급하기 위한 다양한 오디오 입력 방법을 설정하는 방법을 다룹니다. 진행하기 전에 설정 가이드를 완료했는지 확인하세요.

오디오 입력 처리

오디오 입력을 처리할 방법을 설정해야 합니다. 오디오 소스에 따라 여러 가지 방법이 있습니다.

이 접근 방식은 마이크에 말하는 동안 실시간으로 입형을 수행합니다:

표준 모델
리얼리스틱 모델
무드 지원 리얼리스틱 모델

Runtime Audio Importer를 사용하여 캡처 가능 사운드 웨이브 생성
오디오 캡처를 시작하기 전에 OnPopulateAudioData 델리게이트에 바인딩
바인딩된 함수에서 Runtime Viseme Generator의 ProcessAudioData 호출
마이크에서 오디오 캡처 시작

복사 가능 노드.

오디오 캡처 중 입형

리얼리스틱 모델은 표준 모델과 동일한 오디오 처리 워크플로우를 사용하지만, VisemeGenerator 대신 RealisticLipSyncGenerator 변수를 사용합니다.

복사 가능 노드.

오디오 캡처 중 리얼리스틱 입형

무드 지원 모델은 동일한 오디오 처리 워크플로우를 사용하지만, MoodMetaHumanLipSyncGenerator 변수와 추가적인 무드 구성 기능을 갖춥니다.

복사 가능 노드.

오디오 캡처 중 무드 지원 입형

이 접근 방식은 마이크에서 오디오를 캡처한 다음 립 싱크와 함께 재생합니다:

표준 모델
리얼리스틱 모델
무드 지원 리얼리스틱 모델

Runtime Audio Importer를 사용하여 Capturable Sound Wave 생성
마이크에서 오디오 캡처 시작
캡처 가능한 사운드 웨이브를 재생하기 전에, 해당 OnGeneratePCMData 델리게이트에 바인딩
바인딩된 함수에서 Runtime Viseme Generator의 ProcessAudioData 호출

복사 가능한 노드.

오디오 재생 중 립 싱크

리얼리스틱 모델은 표준 모델과 동일한 오디오 처리 워크플로우를 사용하지만, VisemeGenerator 대신 RealisticLipSyncGenerator 변수를 사용합니다.

복사 가능한 노드.

오디오 재생 중 리얼리스틱 립 싱크

무드 지원 모델은 동일한 오디오 처리 워크플로우를 사용하지만, MoodMetaHumanLipSyncGenerator 변수와 추가적인 무드 구성 기능을 갖추고 있습니다.

복사 가능한 노드.

오디오 재생 중 무드 지원 립 싱크

일반
스트리밍

이 접근 방식은 로컬 TTS를 사용하여 텍스트에서 음성을 합성하고 립싱크를 수행합니다:

표준 모델
리얼리스틱 모델
무드 지원 리얼리스틱 모델

Runtime Text To Speech를 사용하여 텍스트에서 음성 생성
Runtime Audio Importer를 사용하여 합성된 오디오 임포트
임포트된 사운드 웨이브를 재생하기 전에, 해당 OnGeneratePCMData 델리게이트에 바인딩
바인딩된 함수에서 Runtime Viseme Generator의 ProcessAudioData 호출

복사 가능한 노드.

합성된 음성에서 립싱크

Runtime Text To Speech를 사용하여 텍스트에서 음성 생성
Runtime Audio Importer를 사용하여 합성된 오디오 임포트
임포트된 사운드 웨이브를 재생하기 전에, 해당 OnGeneratePCMData 델리게이트에 바인딩
바인딩된 함수에서 Mood-Enabled Lip Sync Generator의 ProcessAudioData 호출
텍스트 콘텐츠나 원하는 감정 표현에 기반하여 무드 설정 구성

복사 가능한 노드.

로컬 TTS에서 무드 지원 립싱크

무드 통합과 함께하는 TTS:

TTS 생성 전이나 도중에 적절한 무드 설정
텍스트의 감정적 톤과 일치하도록 무드 강도 조정
긴 텍스트 콘텐츠의 다른 섹션에 대해 다른 무드 사용

이 접근 방식은 실시간 립 싱크와 함께 스트리밍 텍스트-음성 합성을 사용합니다:

표준 모델
리얼리스틱 모델
무드-활성화 리얼리스틱 모델

Runtime Text To Speech를 사용하여 텍스트에서 스트리밍 음성을 생성합니다
Runtime Audio Importer를 사용하여 합성된 오디오를 임포트합니다
스트리밍 사운드 웨이브를 재생하기 전에, 해당 OnGeneratePCMData 델리게이트에 바인딩합니다
바인딩된 함수 내에서, Runtime Viseme Generator의 ProcessAudioData를 호출합니다

복사 가능한 노드들.

합성된 스트리밍 음성으로부터의 립 싱크

Runtime Text To Speech를 사용하여 텍스트에서 스트리밍 음성을 생성합니다
Runtime Audio Importer를 사용하여 합성된 오디오를 임포트합니다
스트리밍 사운드 웨이브를 재생하기 전에, 해당 OnGeneratePCMData 델리게이트에 바인딩합니다
바인딩된 함수 내에서, 무드-활성화 Lip Sync Generator의 ProcessAudioData를 호출합니다
필요한 경우 스트리밍 중에 무드 설정을 동적으로 조정합니다

복사 가능한 노드들.

스트리밍 로컬 TTS로부터의 무드-활성화 립 싱크

일반
스트리밍

이 접근 방식은 Runtime AI Chatbot Integrator 플러그인을 사용하여 AI 서비스(OpenAI 또는 ElevenLabs)에서 합성된 음성을 생성하고 립싱크를 수행합니다:

표준 모델
리얼리스틱 모델
무드 지원 리얼리스틱 모델

Runtime AI Chatbot Integrator를 사용하여 외부 API(OpenAI, ElevenLabs 등)를 통해 텍스트에서 음성을 생성합니다.
Runtime Audio Importer를 사용하여 합성된 오디오 데이터를 임포트합니다.
임포트된 사운드 웨이브를 재생하기 전에, 해당 사운드 웨이브의 OnGeneratePCMData 델리게이트에 바인딩합니다.
바인딩된 함수 내에서, Runtime Viseme Generator의 ProcessAudioData를 호출합니다.

복사 가능한 노드.

외부에서 합성된 음성으로부터의 립싱크

리얼리스틱 모델은 표준 모델과 동일한 오디오 처리 워크플로우를 사용하지만, VisemeGenerator 대신 RealisticLipSyncGenerator 변수를 사용합니다.

복사 가능한 노드.

외부에서 합성된 음성으로부터의 리얼리스틱 립싱크

무드 지원 모델은 동일한 오디오 처리 워크플로우를 사용하지만, MoodMetaHumanLipSyncGenerator 변수와 추가적인 무드 구성 기능을 사용합니다.

복사 가능한 노드.

외부에서 합성된 음성으로부터의 무드 지원 립싱크

이 접근 방식은 Runtime AI Chatbot Integrator 플러그인을 사용하여 AI 서비스(OpenAI 또는 ElevenLabs)로부터 합성된 스트리밍 음성을 생성하고 립싱크를 수행합니다:

표준 모델
리얼리스틱 모델
무드 지원 리얼리스틱 모델

Runtime AI Chatbot Integrator를 사용하여 스트리밍 TTS API(예: ElevenLabs Streaming API)에 연결
Runtime Audio Importer를 사용하여 합성된 오디오 데이터를 임포트
스트리밍 사운드 웨이브를 재생하기 전에, 해당 OnGeneratePCMData 델리게이트에 바인딩
바인딩된 함수 내에서, Runtime Viseme Generator의 ProcessAudioData를 호출

복사 가능한 노드.

외부에서 합성된 스트리밍 음성으로부터의 립싱크

리얼리스틱 모델은 표준 모델과 동일한 오디오 처리 워크플로우를 사용하지만, VisemeGenerator 대신 RealisticLipSyncGenerator 변수를 사용합니다.

복사 가능한 노드.

외부에서 합성된 스트리밍 음성으로부터의 리얼리스틱 립싱크

무드 지원 모델은 동일한 오디오 처리 워크플로우를 사용하지만, MoodMetaHumanLipSyncGenerator 변수와 추가적인 무드 구성 기능을 사용합니다.

복사 가능한 노드.

외부에서 합성된 스트리밍 음성으로부터의 무드 지원 립싱크

이 접근 방식은 미리 녹음된 오디오 파일이나 오디오 버퍼를 립싱크에 사용합니다:

표준 모델
리얼리스틱 모델
무드 지원 리얼리스틱 모델

Runtime Audio Importer를 사용하여 디스크나 메모리에서 오디오 파일을 가져옵니다
가져온 사운드 웨이브를 재생하기 전에, 해당 OnGeneratePCMData 델리게이트에 바인딩합니다
바인딩된 함수에서 Runtime Viseme Generator의 ProcessAudioData를 호출합니다
가져온 사운드 웨이브를 재생하고 립싱크 애니메이션을 관찰합니다

복사 가능한 노드들.

Lip Sync From Audio File

리얼리스틱 모델은 표준 모델과 동일한 오디오 처리 워크플로우를 사용하지만, VisemeGenerator 변수 대신 RealisticLipSyncGenerator 변수를 사용합니다.

복사 가능한 노드들.

Realistic Lip Sync From Audio File

무드 지원 모델은 동일한 오디오 처리 워크플로우를 사용하지만, MoodMetaHumanLipSyncGenerator 변수와 추가적인 무드 구성 기능을 사용합니다.

복사 가능한 노드들.

Mood-Enabled Lip Sync From Audio File

스트리밍 오디오 데이터를 버퍼에서 처리하려면 다음이 필요합니다:

표준 모델
Realistic Model
Mood-Enabled Realistic Model

스트리밍 소스에서 사용 가능한 float PCM 형식의 오디오 데이터 (부동 소수점 샘플 배열) (또는 Runtime Audio Importer를 사용하여 더 많은 형식을 지원할 수 있습니다)
샘플 레이트와 채널 수
오디오 청크가 사용 가능해질 때마다 Runtime Viseme Generator의 ProcessAudioData를 이러한 매개변수와 함께 호출합니다

복사 가능한 노드들.

Lip Sync From Streaming Source

Realistic Model은 Standard Model과 동일한 오디오 처리 워크플로우를 사용하지만, VisemeGenerator 대신 RealisticLipSyncGenerator 변수를 사용합니다.

복사 가능한 노드.

Realistic Lip Sync From Streaming Source

Mood-Enabled Model은 동일한 오디오 처리 워크플로우를 사용하지만, MoodMetaHumanLipSyncGenerator 변수와 추가적인 기분 구성 기능을 포함합니다.

복사 가능한 노드.

Mood-Enabled Lip Sync From Streaming Source

참고: 스트리밍 오디오 소스를 사용할 때는 왜곡된 재생을 방지하기 위해 오디오 재생 타이밍을 적절히 관리해야 합니다. 자세한 내용은 Streaming Sound Wave 문서를 참조하세요.

처리 성능 팁

청크 크기: 더 반응적인 립싱크를 위해 더 작은 청크로 오디오 데이터를 처리하려면 SetNumSamplesPerChunk 함수의 계산을 조정하세요. 예를 들어, 샘플 레이트를 100으로 나누는 것(10ms마다 스트리밍) 대신 150으로 나누면(약 6.67ms마다 스트리밍) 더 빈번한 립싱크 업데이트를 제공합니다.
버퍼 관리: 기분 지원 모델은 320-샘플 프레임(16kHz에서 20ms)으로 오디오를 처리합니다. 최적의 성능을 위해 오디오 입력 타이밍이 이와 일치하는지 확인하세요.
제너레이터 재생성: Realistic 모델을 사용할 때 신뢰할 수 있는 작동을 위해, 비활성 기간 후 새로운 오디오 데이터를 공급하려고 할 때마다 제너레이터를 재생성하세요.

다음 단계

오디오 처리를 설정한 후에는 다음을 고려해 볼 수 있습니다:

립싱크 동작을 미세 조정하기 위한 구성 옵션에 대해 알아보기
표현력 향상을 위한 웃음 애니메이션 추가하기
구성 가이드에 설명된 레이어링 기술을 사용하여 기존 얼굴 애니메이션과 립싱크 결합하기

오디오 입력 처리​

처리 성능 팁​

다음 단계​

오디오 입력 처리

처리 성능 팁

다음 단계