VideoMaker – 浙大联合腾讯和华为推出的零样本定制视频生成框架

4个月前发布 153 00

VideoMaker是浙江大学、腾讯和华为诺亚方舟实验室共同开发的创新项目，基于视频扩散模型（VDM）的零样本定制视频生成框架。与传统方法不同，VideoMaker无需额外模型即可直接从参考图片中提取和注入主题特征，实现个性化视频内容的一键生成。框架基于VDM的内在能力进行细粒度特征提取，通过空间自注意力机制实现特征注入，保证了视频生成的...

收录时间：

2025-12-16

打开网站手机查看

VideoMaker – 浙大联合腾讯和华为推出的零样本定制视频生成框架

VideoMaker – 浙大联合腾讯和华为推出的零样本定制视频生成框架

VideoMaker是浙江大学、腾讯和华为诺亚方舟实验室共同开发的创新项目，基于视频扩散模型（VDM）的零样本定制视频生成框架。与传统方法不同，VideoMaker无需额外模型即可直接从参考图片中提取和注入主题特征，实现个性化视频内容的一键生成。框架基于VDM的内在能力进行细粒度特征提取，通过空间自注意力机制实现特征注入，保证了视频生成的多样性和主题一致性。VideoMaker在保持视频多样性的同时，确保了与参考图片中的主题特征高度契合，为个性化视频创作带来了极大的便捷性和灵活性。

官网：https://arxiv.org/pdf/2412.19645

立即打开官网

数据统计

相关导航

Roop – 开源的AI视频换脸工具

Roop 是开源的 AI视频换脸工具，Roop支持用户通过...

千音漫语 – AI声音创作助手，涵盖多种语言和音色

千音漫语是北京熠声科技推出的智能声音创作助手，为用户提供高效...

Baichuan-Omni-1.5 – 百川智能开源的全模态理解模型

Baichuan-Omni-1.5是百川智能开源的全模态模型...

StreamingT2V – PicsArt推出的可生成长达2分钟视频的模型

StreamingT2V是由PicsArt AI研究团队推出...

VideoLLaMB – 开源的多模态长视频理解框架

VideoLLaMB 是一种创新的长视频理解框架，通过引入记...

WorldCraft – 港科大推出的3D虚拟世界创建和定制系统

WorldCraft是香港科技大学推出的基于大型语言模型（L...

天谱乐 – 唱鸭团队推出的首个多模态音乐生成大模型

天谱乐是趣丸科技唱鸭团队推出的全球首个多模态音乐生成大模型...

Unbounded – 谷歌推出的首款AI生成式无限人生模拟游戏

Unbounded是谷歌和北卡罗来纳大学教堂山分校共同推出的...