프리픽으로 영상을 작업하는데 몇 번을 뽑아도 립싱크 음성이 씹히거나 싱크가 안맞는 경우들이 종종 발생한다. 같은 씬을 프롬프트를 바꿔도 보고, 반복해서 뽑아도 보고 해도 계속 문제가 발생하는 경우가 종종 있다.
클링3.0 립싱크 싱크 및 발음 문제 해결 팁
프리픽에서 클링 3.0으로 몇 번을 돌려도 립싱크의 입모양이 안맞거나 발음이 중간에 씹힌다.
원래 대사는 “두쫀쿠? 버터떡? 맛있고 좋지 뭐. 우리 딸 좋겠네 달달~한 선행하느라. 당 떨어질 일이 없겠네.”였는데 두쫀쿠랑 선행 발음이 계속 이상하게 나오고 싱크도 어긋나는 경우들이 많이 발생했다. 말 그대로 크래딧만 살살 녹는 상황이다.
해결 방법
크래딧을 계속 날려가며 여러가지를 시도한 끝에 그나마 가장 베스트라고 생각되는 방법을 하나 찾았다.
바로 대사를 쪼개서 여러 노드로 바꾸는 방법이다.

한 호흡에 들어가야 하는 대사를 쪼개고 쪼개서 몇 개의 노드로 연결해서 각각 뽑아봤다.
각 영상마다 프리미어에서 2프레임씩 중첩해주면 이질감 없이 잘 붙는다.
단, 한 가지 문제점이 나타났다.


이거는 LTX-2에서도 발생했던 문제점인데 클링 3.0에서도 드러나는 것을 확인했다.
각 짧은 영상의 마지막 프레임을 시작이미지로 바로 연결해서 다음 클립을 뽑고 하다보니 각 클립마다 시작 이미지들이 여러 번의 ai 랜더링으로 인해 과중첩되면서 본래 모습과 조금씩 달라지는 모습을 보인다. 특히 피부가 그렇다.
이 부분을 해결하기 위해서는 결국 각 영상 클립의 마지막 이미지를 업스케일링을 하던지 나노바나나로 다시 리터징을 하던지 해서 사용을 해야할 것으로 보인다.
근데 그러면 솔직히 시간이 너무 걸린다. 각 영상마다 클립이 나올때까지 기다리고, 나온 영상의 마지막 프레임 이미지 추출하고, 보정하고 다시 돌리고…
쉽지 않다.
결론적으로 ai로 뮤직비디오나 광고등 짧은 영상 클립들을 뽑아서 조합하는 형태의 콘텐츠에서는 ai가 무척 좋게 작용한다. 그런데 긴 호흡으로 대사를 이끌어나가야 하는 씬을 구성함에 있어서는 짧게 짧게 구도를 바꾼 이미지들을 시작이미지로 써서 짧은 클립들을 뽑아 이어 붙이던가 해야 할 것 같다.
LTX-2로 간단하게 작업해본 교육용 영상 역시 이러한 과중첩 문제로 나래이션을 짧게 짧게 끊어서 시작이미지를 5개를 돌려가며 뽑고 이어붙였다.
조금 더 있으면 이 문제도 해결될 것으로 본다.
결론
만약 ai로 생성한 영상의 립싱크의 싱크가 안맞거나 발음에 문제가 있다면 우선적으로 생성 시간을 조금 늘려보자. 10초로 생성했던 영상이 문제라면 11~12초로 늘려서 뽑아보자.
만약 더 이상 늘릴 시간이 없다면 대사를 쪼개서 뽑자.

raonolje에 답글 남기기 응답 취소