ContentV – 字节跳动开源的文生视频模型框架

3个月前发布 75 00

ContentV是字节跳动开源的80亿参数文生视频模型框架。将Stable Diffusion 3.5 Large的2D-VAE替换为3D-VAE并引入3D位置编码，使图像模型快速获得视频生成能力。训练上采用多阶段策略，先用视频数据建立时间表示，再进行图片视频联合训练，按视频时长和宽高比分桶并用动态批量大小机制优化内存，渐进式训练先增...

收录时间：

2025-12-16

打开网站手机查看

ContentV – 字节跳动开源的文生视频模型框架

ContentV – 字节跳动开源的文生视频模型框架

ContentV是字节跳动开源的80亿参数文生视频模型框架。将Stable Diffusion 3.5 Large的2D-VAE替换为3D-VAE并引入3D位置编码，使图像模型快速获得视频生成能力。训练上采用多阶段策略，先用视频数据建立时间表示，再进行图片视频联合训练，按视频时长和宽高比分桶并用动态批量大小机制优化内存，渐进式训练先增时长再增分辨率，用Flow Matching算法提升效率。强化学习方面，采用成本效益高的框架，无需额外人工标注，通过监督微调和强化学习人类反馈提升生成质量。用64GB内存的NPU构建分布式训练框架，实现480P、24FPS、5秒视频的高效训练。在VBench上，ContentV长视频总得分85.14，仅次于Wan2.1-14B，人类偏好评分在多维度上优于 CogVideoX 和混元视频。

官网：https://github.com/bytedance/ContentV

立即打开官网

数据统计

相关导航

谷歌DeepMind推出V2A技术，可为无声视频添加逼真音效

在人工智能领域，谷歌旗下的DeepMind公司再次取得突破性...

Veo – 谷歌推出的可生成1分钟1080P的视频模型

Veo是由Google DeepMind开发的一款视频生成模...

Adobe Firefly – Adobe推出的系列创意生成式AI模型

Adobe Firefly 是 Adobe 推出的一系列创意...

VILA-U – 融合多模态理解和生成的统一基础模型

VILA-U是集成视频、图像、语言理解和生成的统一基础模型...

3DV-TON – 阿里达摩院联合浙大等推出的视频虚拟试穿框架

3DV-TON（Textured 3D-Guided Con...

CAVIA – 苹果、得克萨斯、谷歌联合推出的多视角视频生成框架

CAVIA是苹果公司、得克萨斯大学奥斯汀分校、谷歌联合推出的...

AnimateDiff-Lightning – 字节推出的快速生成高质量视频的模型

AnimateDiff-Lightning是由字节跳动的研究...

YouTube Dubbing – AI浏览器插件，一键翻译国外视频用熟悉语言播放

YouTube Dubbing是在线观看国外视频的浏览器插件...