MarDini – Meta联合KAUST推出的视频生成扩散模型

4个月前发布 119 00

MarDini是新型的视频扩散模型，融合掩码自回归（MAR）和扩散模型（DM）的优势，用在大规模视频生成。模型能处理任意数量和位置的掩码帧，支持视频插值、图像到视频生成及视频扩展等多种任务。MarDini将大部分计算资源分配给低分辨率的规划模型，实现空间-时间注意力机制的大规模应用，提高视频生成的效率和灵活性。MarDini能从无标签数据...

收录时间：

2025-12-16

打开网站手机查看

MarDini – Meta联合KAUST推出的视频生成扩散模型

MarDini – Meta联合KAUST推出的视频生成扩散模型

MarDini是新型的视频扩散模型，融合掩码自回归（MAR）和扩散模型（DM）的优势，用在大规模视频生成。模型能处理任意数量和位置的掩码帧，支持视频插值、图像到视频生成及视频扩展等多种任务。MarDini将大部分计算资源分配给低分辨率的规划模型，实现空间-时间注意力机制的大规模应用，提高视频生成的效率和灵活性。MarDini能从无标签数据中从头开始训练，无需依赖图像生成的预训练，展现出优异的可扩展性和效率。

官网：https://arxiv.org/pdf/2410.20280v1

立即打开官网

数据统计

相关导航

DreamGen – 英伟达推出的新型机器人学习技术

DreamGen是英伟达推出的创新的机器人学习技术，基于AI...

VSI-Bench – 李飞飞谢赛宁团队推出的视觉空间智能基准测试集

VSI-Bench（Visual-Spatial Intel...

T2V-Turbo – 谷歌开源的文本到视频生成模型

T2V-Turbo是一种先进的文本到视频生成模型，由Goog...

MultiTalk – 音频驱动的多人对话视频生成框架

MultiTalk 是中山大学深圳校区、美团和香港科技大学联...

Mubert

Mubert 是 AI音乐生成平台，通过简单易用的方式为用...

MMAudio – 基于多模态联合训练实现高质量 AI 音频合成项目

MMAudio是先进视频到音频合成技术，基于多模态联合训...

TrackGo – 先进的可控AI视频生成技术

TrackGo是一种先进的可控AI视频生成技术，通过用自由形...

PySpur – 开源 AI 代理构建工具，拖拽式构建 AI 工作流

PySpur 是开源的轻量级可视化 AI 智能体工作流构建器...