Google’ın yapay zeka araştırma laboratuvarı DeepMind, V2A (“videodan ses” ifadesinin kısaltması) adında yapay zeka tarafından oluşturulan videoları seslendiren yeni aracını duyurdu. DeepMind’ın açıklamasına göre V2A, sesleri oluştururken hem yazılan açıklamadan yararlanıyor hem de videoyu piksel piksel analiz ediyor. Bu sayede açıklama yazmasanız bile ses oluşturabiliyor.
Videoyu seslendirme üzerine yapay zeka araçlarının önemli olduğunu söylemek gerek. Zira günümüzde metinden ya da resimden video oluşturabilen pek çok yapay zeka aracı olsa da bu araçlar çoğunlukla sessiz videolar üretebiliyor. Ancak hepimiz biliyoruz ki video, görsel olduğu kadar işitsel de bir medya türüdür. Hızla ilerleyen bir tren videosu gördüğümüzde rayların, vagonların ve lokomotifin sesini duyamadığımızda video etkisini kaybetmiş oluyor.
V2A’nın yapay zeka tarafından üretilen bir gitar çalma videosunu seslendirdiği örnek
DeepMind, V2A’nın görüntüye uyumlu ses üretme ve sesi otomatik olarak görüntü ile senkronize etme açısından rakipsiz olduğunu öne sürüyor. Ancak paylaşılan örneklere baktığımızda etkilendiğimizi söylemek zor. V2A, görüntüye uygun ses üretiyor ancak daha çok görüntüye uyumlu stok bir sesi dublajlıyor gibi görünüyor.
Hemen aşağıdaki örnekler, V2A’nın videoları seslendirme konusunda henüz ne kadar ilkel kaldığını anlamanızı sağlayabilir. Yine de bir zamanlar Dall-E’nin de bir zamanlar kanarya çiz denildiğinde tüylü bir sarı top çizdiğini unutmamak gerek. Yapay zeka araçları, kullandıkça gelişiyor…