VideoPoet: Yenilikçi Video Üretim Aracı
VideoPoet, Google Research tarafından geliştirilen bir yapay zeka video üretim aracıdır. Bu uygulama, autoregresif dil modellerini yüksek kaliteli video jeneratörlerine dönüştürerek, ilgi çekici ve yüksek çözünürlüklü hareketler üretmeyi amaçlar. MAGVIT V2 video tokenizer ve SoundStream audio tokenizer gibi bileşenler kullanarak, değişken uzunluktaki görüntü, video ve ses kliplerini tek bir kelime dağarcığında ayrık kod dizilerine dönüştürür. Bu sayede, metin tabanlı dil modelleri ile entegrasyon sağlanır ve metin, görüntü, ses ile video gibi farklı modaliteler arasında geçiş yapılabilir.
VideoPoet, çok modlu üretken öğrenme hedeflerini entegre eden bir eğitim çerçevesine sahiptir. Metinden videoya, görüntüden videoya, video çerçevesi devam ettirme, video inpainting ve outpainting gibi işlevleri destekler. Ayrıca, kısa formlu içerikler için kare veya portre yönlendirilmiş videolar oluşturma yeteneğine sahiptir. VideoPoet, video merkezli giriş ve çıkışlar üzerinde çoklu görev yapabilme kapasitesi ile dil modellerinin videoları istenen zamansal tutarlılıkla sentezleyip düzenleyebileceğini göstermektedir.