CineMaster – 快手推出的文本到视频生成框架,具备3D感知能力
CineMaster是快手推出的具备3D感知能力的文本到 视...
Goku是香港大学和字节跳动联合发布的最新 视频生成 模型,专为图像和视频的联合生成设计。基于先进的rectified flow Transformer框架,支持 文生视频 、图生视频及文生图等多种模式。Goku的核心优势包括高质量的视频生成能力、极低的广告视频制作成本(比传统方法低100倍)。Goku基于大规模高质量的数据集和高效的训练设施。研究人员构建了包含约3600万视频和1.6亿图像的数据集,采用多模态大语言模型生成语境一致的框架。Goku采用了先进的并行策略和容错机制,确保训练过程的高效性和稳定性。