OmniCam – 浙大联合上海交大等高校推出的多模态视频生成框架

4个月前发布 107 00

OmniCam 是先进的多模态视频生成框架，通过摄像机控制实现高质量的视频生成。支持多种输入模态组合，用户可以提供文本描述、视频中的轨迹或图像作为参考，精确控制摄像机的运动轨迹。OmniCam 结合了大型语言模型（LLM）和视频扩散模型，能生成时空一致的视频内容。通过三阶段训练策略，包括大规模模型训练、视频扩散模型训练以及强化学习微...

收录时间：

2025-12-16

打开网站手机查看

OmniCam – 浙大联合上海交大等高校推出的多模态视频生成框架

OmniCam – 浙大联合上海交大等高校推出的多模态视频生成框架

OmniCam 是先进的多模态视频生成框架，通过摄像机控制实现高质量的视频生成。支持多种输入模态组合，用户可以提供文本描述、视频中的轨迹或图像作为参考，精确控制摄像机的运动轨迹。OmniCam 结合了大型语言模型（LLM）和视频扩散模型，能生成时空一致的视频内容。通过三阶段训练策略，包括大规模模型训练、视频扩散模型训练以及强化学习微调，确保生成视频的准确性和连贯性。

官网：https://arxiv.org/pdf/2504.02312

立即打开官网

数据统计

相关导航

Seed-TTS – 字节跳动推出的高质量文本到语音生成模型

Seed-TTS是由字节跳动开发的高级文本到语音（Tex...

Cosmos-Reason1 – NVIDIA推出的系列多模态大语言模型

Cosmos-Reason1 是NVIDIA推出的系列多模态...

ComfyUI-MochiEdit – 开源的AI视频编辑工具，支持视频转视频和局部编辑

ComfyUI-MochiEdit是基于ComfyUI和Ge...

Pix2Gif – 微软推出的静态图像转动态GIF的扩散模型

Pix2Gif是由微软研究院的研究人员提出的一个基于运动引导...

Motion Prompting – 谷歌联合密歇根和布朗大学推出的运动轨迹控制视频生成模型

Motion Prompting是 Google DeepM...

RAIN – 视频流制作实时动画生成和真人表情移植解决方案

RAIN（Real-time Animation Of In...

EasyVideoTrans – 开源的AI视频翻译工具，快速将英文视频转中文视频

EasyVideoTrans是开源的 AI视频翻译工具，能...

Generative Omnimatte – 谷歌联合马里兰大学等机构推出的视频分解技术

Generative Omnimatte 是 Google ...