w.a.l.t:谷歌视频生成模型-凯发k8国际真人

刚注意到李飞飞团队的这个视频生成模型w.a.l.t,这效果也太好了,感觉比 pika 1.0 还要好的多。
清晰度和动作都非常好,特别是光剑打斗的那个视频。可惜不开源。

方法有两个关键的设计决策。首先,我们使用因果编码器在统一的潜在空间内联合压缩图像和视频,从而实现跨模态的训练和生成。其次,为了提高记忆和训练效率,我们使用专为联合空间和时空生成建模而定制的窗口注意架构。总而言之,这些设计决策使我们能够在已建立的视频(ucf-101 和 kinetics-600)和图像(imagenet)生成基准上实现最先进的性能,而无需使用无分类器指导。

未经允许不得转载:凯发k8国际真人 » w.a.l.t:谷歌视频生成模型

网站地图