matryoshka diffusion models-凯发k8国际真人

提出了一种端到端的高图像和视频合成。所提出的使用扩散过程,可联合对多个的输入进行去噪,并使用嵌套的unet架构,其中小规模输入的特征和参数嵌入在大规模中。该允许从较低分辨率到较高分辨率的逐步训练计划,从而显着改善高分辨率生成的优化。作者在各种基准测试中证明了他们的方法的有效性,包括类条件图像生成,高分辨率文本到图像和文本到视频应用。他们能够在最高1024×1024像素的分辨率下训练单个像素空间模型,证明了使用仅包含1200万个图像的cc12m数据集的强零射击泛化能力。

未经允许不得转载:凯发k8国际真人 » matryoshka diffusion models

网站地图