VideoWorld – 字节联合交大等机构推出的自回归视频生成模型

4个月前发布 124 00

VideoWorld是北京交通大学、中国科学技术大学和字节跳动合作开展的一项研究项目，探索深度生成模型是否能仅通过未标注的视频数据学习复杂的知识，包括规则、推理和规划能力。该项目的核心是自回归视频生成模型，通过观察视频来获取知识，不依赖于传统的文本或标注数据。官网：https://github.com/bytedance/VideoW...

收录时间：

2025-12-16

打开网站手机查看

VideoWorld – 字节联合交大等机构推出的自回归视频生成模型

VideoWorld – 字节联合交大等机构推出的自回归视频生成模型

VideoWorld是北京交通大学、中国科学技术大学和字节跳动合作开展的一项研究项目，探索深度生成模型是否能仅通过未标注的视频数据学习复杂的知识，包括规则、推理和规划能力。该项目的核心是自回归视频生成模型，通过观察视频来获取知识，不依赖于传统的文本或标注数据。

官网：https://github.com/bytedance/VideoWorld

立即打开官网

数据统计

相关导航

Loopy – 字节跳动推出的音频驱动的AI视频生成模型

Loopy是字节跳动推出的音频驱动的 AI视频生成模型，用...

Animate-X – 阿里巴巴开源的通用动画生成框架

Animate-X是基于LDM的通用动画框架，能将静态图像转...

OmniCam – 浙大联合上海交大等高校推出的多模态视频生成框架

OmniCam 是先进的多模态视频生成框架，通过摄像机控...

NEXUS-O – 多模态AI模型，实现对语言、音频和视觉全方位感知与交互

NEXUS-O 是HiThink 研究院、英国帝国理工学院...

Buzz – 免费开源的AI语音转文字工具

Buzz是一款基于OpenAI Whisper模型构建的离线...

MAGREF – 字节跳动推出的多主体视频生成框架

MAGREF（Masked Guidance for Any...

Loong – 港大和字节联合推出的长视频生成模型

Loong是由香港大学和字节跳动联合推出的一种新型长视频生成...

Motion Dreamer – 香港科技大学推出的运动合理视频生成框架

Motion Dreamer是香港科技大学（广州）研究者提出...