Fluid – 谷歌联合MIT推出文本到图像的自回归生成模型

3个月前发布 68 00

Fluid是由Google DeepMind和MIT共同推出的文本到图像的自回归生成模型，基于连续标记和随机生成顺序的方法，在视觉质量和评估性能上取得突破性进展。模型在扩大模型规模时，能有效提升图像生成的视觉质量，解决传统自回归模型的局限性。在10.5亿参数规模下，Fluid在MS-COCO数据集上实现6.16的零样本FID得分，在Gen...

收录时间：

2025-12-16

打开网站手机查看

Fluid – 谷歌联合MIT推出文本到图像的自回归生成模型

Fluid – 谷歌联合MIT推出文本到图像的自回归生成模型

Fluid是由Google DeepMind和MIT共同推出的文本到图像的自回归生成模型，基于连续标记和随机生成顺序的方法，在视觉质量和评估性能上取得突破性进展。模型在扩大模型规模时，能有效提升图像生成的视觉质量，解决传统自回归模型的局限性。在10.5亿参数规模下，Fluid在MS-COCO数据集上实现6.16的零样本FID得分，在GenEval基准测试中获得0.69的得分，刷新文生图领域的纪录。Fluid的创新之处在于随机顺序生成机制和连续标记的使用，在生成图像时能更好地捕捉全局结构，特别是在多对象场景中表现出色。

官网：https://arxiv.org/pdf/2410.13863v1

立即打开官网

数据统计

相关导航

PaliGemma 2 mix – 谷歌DeepMind推出的升级版视觉语言模型

PaliGemma 2 Mix是谷歌DeepMind发布的最...

UniFluid – 谷歌联合麻省理工推出的多模态图像生成与理解框架

UniFluid 是谷歌 DeepMind 和麻省理工学院联...

GoodWeBot – 基于 RPA 技术开源的 AI 微信机器人

GoodWeBot 是开源的基于 RPA 技术开发的 AI ...

Outfit Anyone – 阿里开源的一键换衣虚拟试穿项目

Outfit Anyone是由阿里巴巴智能计算研究院推出的一...

DeepSeek Engineer – 开源AI编程助手，处理用户对话生成结构化JSON

DeepSeek Engineer 是集成DeepSeek ...

AI-Infra-Guard – 腾讯开源的 AI 基础设施安全评估工具

AI-Infra-Guard是腾讯开源的高效、轻量级易于使用...

DeepSeek-GRM – DeepSeek 联合清华推出的通用奖励模型

DeepSeek-GRM是 DeepSeek 和清华大学研究...

OmniBooth – 华为诺亚方舟联合港科大推出的图像生成框架

OmniBooth是华为诺亚方舟实验室和港科大研究团队共同推...