CineMaster – 快手推出的文本到视频生成框架，具备3D感知能力

4个月前发布 132 00

CineMaster是快手推出的具备3D感知能力的文本到视频生成框架。类似于视频版的ControlNet，支持用户通过多种控制信号精确操控视频中物体的位置和相机运动。可以使用文本提示生成视频，能结合深度图、相机轨迹和物体标签等信号进行细致调整。快手提供了一套从大规模视频中提取3D边界框和相机轨迹的流程，为CineMaster的训练和应...

收录时间：

2025-12-16

打开网站手机查看

CineMaster – 快手推出的文本到视频生成框架，具备3D感知能力

CineMaster – 快手推出的文本到视频生成框架，具备3D感知能力

CineMaster是快手推出的具备3D感知能力的文本到视频生成框架。类似于视频版的ControlNet，支持用户通过多种控制信号精确操控视频中物体的位置和相机运动。可以使用文本提示生成视频，能结合深度图、相机轨迹和物体标签等信号进行细致调整。快手提供了一套从大规模视频中提取3D边界框和相机轨迹的流程，为CineMaster的训练和应用提供了强大的数据支持。

官网：https://arxiv.org/pdf/2502.08639

立即打开官网

数据统计

相关导航

Eagle 2.5 – 英伟达推出的视觉语言模型

Eagle 2.5是英伟达推出的视觉语言模型，专注于长上下文...

Motionshop – 阿里推出的AI角色动画项目，可替换视频人物为3D

Motionshop是阿里巴巴智能计算研究院（XR实验室和T...

MotionCanvas – 港中文和 Adobe 等机构推出的可控图像到视频生成方法

MotionCanvas是香港中文大学、Adobe 研究院和...

Sa2VA – 字节跳动等机构开源的多模态大语言模型

Sa2VA是字节跳动联合加州大学默塞德分校、武汉大学和北京大...

SmoothCache – Roblox 和女王大学推出用于DiT的通用推理加速技术

SmoothCache 是用在Diffusion Trans...

X-Dancer – 字节等机构推出音乐驱动的人像舞蹈视频生成框架

X-Dancer 是字节跳动联合加州大学圣地亚哥分校和南加州...

StoryDiffusion – 生成一致性图像和视频序列的开源AI框架

StoryDiffusion是一个先进的AI图像和视频生成框...

DragAnything – 快手联合浙大等机构开源的可控视频生成方法

DragAnything 是快手联合浙江大学和新加坡国立大学...