CAVIA – 苹果、得克萨斯、谷歌联合推出的多视角视频生成框架

4个月前发布 143 00

CAVIA是苹果公司、得克萨斯大学奥斯汀分校、谷歌联合推出的多视角视频生成框架，能将单一输入图像转换成多个时空一致的视频序列。框架基于引入视角集成注意力模块，增强视频的视角一致性和时间连贯性，支持用户精确控制相机运动，同时保留对象运动。CAVIA的设计灵活性使其能与多种数据源联合训练，显著提升视频的几何一致性和感知质量，在虚拟现实、增强现...

收录时间：

2025-12-16

打开网站手机查看

CAVIA – 苹果、得克萨斯、谷歌联合推出的多视角视频生成框架

CAVIA – 苹果、得克萨斯、谷歌联合推出的多视角视频生成框架

CAVIA是苹果公司、得克萨斯大学奥斯汀分校、谷歌联合推出的多视角视频生成框架，能将单一输入图像转换成多个时空一致的视频序列。框架基于引入视角集成注意力模块，增强视频的视角一致性和时间连贯性，支持用户精确控制相机运动，同时保留对象运动。CAVIA的设计灵活性使其能与多种数据源联合训练，显著提升视频的几何一致性和感知质量，在虚拟现实、增强现实和电影制作等领域具有应用潜力。

官网：https://arxiv.org/pdf/2410.10774

立即打开官网

数据统计

相关导航

Magic 1-For-1 – 北大、英伟达等推出的高效视频生成模型

Magic 1-For-1是北京大学、Hedra Inc. ...

AniTalker – 上海交大开源的对口型说话视频生成框架

AniTalker是由来自上海交大X-LANCE实验室和思必...

Sapiens – Meta推出的AI视觉模型，能理解图片和视频中的人类动作

Sapiens是Meta实验室推出的AI视觉模型，专为理解图...

脸猫 – AI照片编辑应用，支持一键换装、AI换脸等多功能快速变装

脸猫是集成换装、AI换脸和风格写真的创新应用，让用户轻松拍出...

MimicMotion – 腾讯推出的AI人像动态视频生成框架

MimicMotion是腾讯的研究人员推出的一个高质量的人类...

EchoMimicV2 – 阿里推出的开源数字人项目，能生成完整数字人半身动画

EchoMimicV2是阿里蚂蚁集团推出的半身人体 AI数字...

Director – 构建视频智能体AI框架，用自然语言执行搜索、总结等复杂视频任务

Director是构建视频智能体的框架，用户能用自然语言命令...

YouTube Dubbing – AI浏览器插件，一键翻译国外视频用熟悉语言播放

YouTube Dubbing是在线观看国外视频的浏览器插件...