CustomVideoX – 中科大联合浙大等推出的个性化视频生成框架

1个月前发布 29 00

CustomVideoX 是中科大和浙大等联合提出的创新的个性化 视频生成 框架,通过参考图像和文本描述生成高质量的定制化视频。框架基于视频扩散变换器(Video Diffusion Transformer),通过零样本学习的方式,仅训练 LoRA 参数来提取参考图像特征,实现高效的个性化视频生成。CustomVideoX 的核心技术包括...

收录时间:
2025-12-16
CustomVideoX – 中科大联合浙大等推出的个性化视频生成框架CustomVideoX – 中科大联合浙大等推出的个性化视频生成框架

CustomVideoX 是中科大和浙大等联合提出的创新的个性化 视频生成 框架,通过参考图像和文本描述生成高质量的定制化视频。框架基于视频扩散变换器(Video Diffusion Transformer),通过零样本学习的方式,仅训练 LoRA 参数来提取参考图像特征,实现高效的个性化视频生成。CustomVideoX 的核心技术包括:3D 参考注意力机制,支持参考图像特征与视频帧在空间和时间维度上直接交互;时间感知注意力偏差(TAB)策略,通过动态调整参考特征的影响,增强生成视频的时间连贯性;以及实体区域感知增强(ERAE)模块,通过语义对齐突出关键实体区域。解决了传统方法中时间不一致性和质量下降的问题。

官网:https://arxiv.org/pdf/2502.06527


立即打开官网

数据统计

相关导航