VideoRefer – 浙大联合阿里达摩学院推出的视频对象感知与推理技术
VideoRefer是浙江大学和阿里达摩学院联合推出的,专门...
Goku是香港大学和字节跳动联合发布的最新 视频生成 模型,专为图像和视频的联合生成设计。基于先进的rectified flow Transformer框架,支持 文生视频 、图生视频及文生图等多种模式。Goku的核心优势包括高质量的视频生成能力、极低的广告视频制作成本(比传统方法低100倍)。Goku基于大规模高质量的数据集和高效的训练设施。研究人员构建了包含约3600万视频和1.6亿图像的数据集,采用多模态大语言模型生成语境一致的框架。Goku采用了先进的并行策略和容错机制,确保训练过程的高效性和稳定性。