Vid2World – 清华联合重庆大学推出视频模型转为世界模型的框架

4个月前发布 133 00

Vid2World是清华大学联合重庆大学推出的创新框架，支持将全序列、非因果的被动视频扩散模型（VDM）转换为自回归、交互式、动作条件化的世界模型。模型基于视频扩散因果化和因果动作引导两大核心技术，解决传统VDM在因果生成和动作条件化方面的不足。Vid2World在机器人操作和游戏模拟等复杂环境中表现出色，支持生成高保真、动态一致的视频序...

收录时间：

2025-12-16

打开网站手机查看

Vid2World – 清华联合重庆大学推出视频模型转为世界模型的框架

Vid2World – 清华联合重庆大学推出视频模型转为世界模型的框架

Vid2World是清华大学联合重庆大学推出的创新框架，支持将全序列、非因果的被动视频扩散模型（VDM）转换为自回归、交互式、动作条件化的世界模型。模型基于视频扩散因果化和因果动作引导两大核心技术，解决传统VDM在因果生成和动作条件化方面的不足。Vid2World在机器人操作和游戏模拟等复杂环境中表现出色，支持生成高保真、动态一致的视频序列，支持基于动作的交互式预测。Vid2World为提升世界模型的实用性和预测精度开辟新途径，具有广泛的应用前景。

官网：https://huggingface.co/papers/2505.14357

立即打开官网

数据统计

相关导航

TransPixar – 港中文联合 Adobe 等机构开源的生成透明背景视频技术

TransPixar是香港中文大学、Adobe研究院、香港...

腾讯混元文生视频 – 腾讯推出的AI视频生成模型

腾讯混元文生视频是基于腾讯 AI视频生成模型推出的AI视频...

DynVFX – AI视频增强技术，将新动态内容与原始视频无缝融合

DynVFX是创新的视频增强技术，能根据简单的文本指令将动态...

Boogie AI – AI跳舞软件，支持一张照片生成跳舞视频

Boogie AI是一款AI跳舞软件，使用AI技术将用户上传...

FantasyTalking – 阿里联合北邮推出静态肖像生成可控数字人的框架

FantasyTalking 是阿里巴巴 AMAP 团队和北...

CapsWriter-Offline – AI语音转文字工具，PC端离线实时工作

CapsWriter-Offline是一款高效的PC端离线语...

VideoJAM – Meta 推出增强视频生成模型运动连贯性的框架

VideoJAM是Meta推出的，用在增强视频生成模型运...

Gen-3 Alpha – Runway公司最新推出的AI视频生成模型

Gen-3 Alpha是AI视频初创公司 Runway 最新...