Goku – 港大和字节联合推出的最新视频生成模型

4个月前发布 135 00

Goku是香港大学和字节跳动联合发布的最新视频生成模型，专为图像和视频的联合生成设计。基于先进的rectified flow Transformer框架，支持文生视频、图生视频及文生图等多种模式。Goku的核心优势包括高质量的视频生成能力、极低的广告视频制作成本（比传统方法低100倍）。Goku基于大规模高质量的数据集和高效的训练...

收录时间：

2025-12-16

打开网站手机查看

Goku – 港大和字节联合推出的最新视频生成模型

Goku – 港大和字节联合推出的最新视频生成模型

Goku是香港大学和字节跳动联合发布的最新视频生成模型，专为图像和视频的联合生成设计。基于先进的rectified flow Transformer框架，支持文生视频、图生视频及文生图等多种模式。Goku的核心优势包括高质量的视频生成能力、极低的广告视频制作成本（比传统方法低100倍）。Goku基于大规模高质量的数据集和高效的训练设施。研究人员构建了包含约3600万视频和1.6亿图像的数据集，采用多模态大语言模型生成语境一致的框架。Goku采用了先进的并行策略和容错机制，确保训练过程的高效性和稳定性。

官网：https://github.com/Saiyan-World/goku

立即打开官网

数据统计

相关导航

Cosmos – 英伟达推出的生成式世界基础模型平台

Cosmos是英伟达推出的生成式世界基础模型平台，加速物理人...

ReCamMaster – 浙大联合快手等推出的视频重渲染框架

ReCamMaster 是浙江大学、快手科技等联合推出的视频...

ViewCrafter – 北大、港中文联合腾讯提出的高保真新视图合成技术

ViewCrafter 是北大和港中文联合腾讯提出的一种先进...

MMAudio – 基于多模态联合训练实现高质量 AI 音频合成项目

MMAudio是先进视频到音频合成技术，基于多模态联合训...

Gemma 3 – 谷歌最新推出的开源多模态 AI 模型

Gemma 3 是谷歌最新推出的开源人工智能模型，专为开发者...

AI-Media2Doc – 开源AI图文创作助手，一键将音视频内容转为文档

AI-Media2Doc 是开源的音视频转文档工具，基于AI...

ComfyUI-MochiEdit – 开源的AI视频编辑工具，支持视频转视频和局部编辑

ComfyUI-MochiEdit是基于ComfyUI和Ge...

Playmate – 趣丸科技团队推出的人脸动画生成框架

Playmate是广州趣丸科技团队推出的人脸动画生成框架。框...