GPDiT – 清华北大联合阶跃星辰等推出的视频生成模型

4个月前发布 101 00

GPDiT（Generative Pre-trained Autoregressive Diffusion Transformer）是北京大学、清华大学、StepFun公司及中国科学技术大学推出的新型视频生成模型，模型结合扩散模型和自回归模型的优势，基于自回归方式预测未来的潜在帧，自然地建模运动动态和语义一致性。GPDiT引入轻量级因...

收录时间：

2025-12-16

打开网站手机查看

GPDiT – 清华北大联合阶跃星辰等推出的视频生成模型

GPDiT – 清华北大联合阶跃星辰等推出的视频生成模型

GPDiT（Generative Pre-trained Autoregressive Diffusion Transformer）是北京大学、清华大学、StepFun公司及中国科学技术大学推出的新型视频生成模型，模型结合扩散模型和自回归模型的优势，基于自回归方式预测未来的潜在帧，自然地建模运动动态和语义一致性。GPDiT引入轻量级因果注意力机制，减少计算成本，推出一种无参数的旋转基时间条件策略，有效编码时间信息。GPDiT在视频生成、视频表示和少样本学习任务中均表现出色，展示了在多种视频建模任务中的多功能性和适应性。

官网：https://arxiv.org/pdf/2505.07344

立即打开官网

数据统计

相关导航

Ingredients – 多ID照片定制视频生成框架，基于多ID照片与视频扩散相结合

Ingredients是强大的框架，基于将多个特定身份（ID...

Podcastfy – AI文本转语音工具，支持多源文本转多种语言音频

Podcastfy 是一个开源的 Python 软件包，能将...

Aether – 上海 AI Lab 开源的生成式世界模型

Aether 是上海AI Lab开源的生成式世界模型，完全基...

Follow-Your-Click – 腾讯等开源的图像到视频模型，可生成局部动画

Follow-Your-Click是一个由来自腾讯公司（混元...

T2V-Turbo – 谷歌开源的文本到视频生成模型

T2V-Turbo是一种先进的文本到视频生成模型，由Goog...

VideoLingo – 全自动AI视频翻译工具，一键搞定双语字幕和配音

VideoLingo 是一款一键全自动视频翻译工具，能将...

3DV-TON – 阿里达摩院联合浙大等推出的视频虚拟试穿框架

3DV-TON（Textured 3D-Guided Con...

VACE – 阿里通义推出的视频生成与编辑框架

VACE（Video Creation and Editin...