MarDini – Meta联合KAUST推出的视频生成扩散模型

1个月前发布 27 00

MarDini是新型的视频扩散模型,融合掩码自回归(MAR)和扩散模型(DM)的优势,用在大规模视频生成。模型能处理任意数量和位置的掩码帧,支持视频插值、图像到视频生成及视频扩展等多种任务。MarDini将大部分计算资源分配给低分辨率的规划模型,实现空间-时间注意力机制的大规模应用,提高视频生成的效率和灵活性。MarDini能从无标签数据...

收录时间:
2025-12-16
MarDini – Meta联合KAUST推出的视频生成扩散模型MarDini – Meta联合KAUST推出的视频生成扩散模型

MarDini是新型的视频扩散模型,融合掩码自回归(MAR)和扩散模型(DM)的优势,用在大规模视频生成。模型能处理任意数量和位置的掩码帧,支持视频插值、图像到视频生成及视频扩展等多种任务。MarDini将大部分计算资源分配给低分辨率的规划模型,实现空间-时间注意力机制的大规模应用,提高视频生成的效率和灵活性。MarDini能从无标签数据中从头开始训练,无需依赖图像生成的预训练,展现出优异的可扩展性和效率。

官网:https://arxiv.org/pdf/2410.20280v1


立即打开官网

数据统计

相关导航