ContentV – 字节跳动开源的文生视频模型框架

1个月前发布 29 00

ContentV是字节跳动开源的80亿参数 文生视频 模型框架。将Stable Diffusion 3.5 Large的2D-VAE替换为3D-VAE并引入3D位置编码,使图像模型快速获得视频生成能力。训练上采用多阶段策略,先用视频数据建立时间表示,再进行图片视频联合训练,按视频时长和宽高比分桶并用动态批量大小机制优化内存,渐进式训练先增...

收录时间:
2025-12-16
ContentV – 字节跳动开源的文生视频模型框架ContentV – 字节跳动开源的文生视频模型框架

ContentV是字节跳动开源的80亿参数 文生视频 模型框架。将Stable Diffusion 3.5 Large的2D-VAE替换为3D-VAE并引入3D位置编码,使图像模型快速获得视频生成能力。训练上采用多阶段策略,先用视频数据建立时间表示,再进行图片视频联合训练,按视频时长和宽高比分桶并用动态批量大小机制优化内存,渐进式训练先增时长再增分辨率,用Flow Matching算法提升效率。强化学习方面,采用成本效益高的框架,无需额外人工标注,通过监督微调和强化学习人类反馈提升生成质量。用64GB内存的NPU构建分布式训练框架,实现480P、24FPS、5秒视频的高效训练。在VBench上,ContentV长视频总得分85.14,仅次于Wan2.1-14B,人类偏好评分在多维度上优于 CogVideoX 和 混元视频 。

官网:https://github.com/bytedance/ContentV


立即打开官网

数据统计

相关导航