OmniGen – 统一图像生成的扩散模型，支持多模态输入

4个月前发布 136 00

OmniGen是用于统一图像生成的新扩散模型，能在单一框架内处理多种图像生成任务，如文本到图像的生成、图像编辑、主题驱动生成和视觉条件生成等。OmniGen涉及传统计算机视觉任务，将任务转化为图像生成任务增强模型的复杂图像生成能力。OmniGen的架构简化，不需要额外的文本编码器，让用户用指令完成复杂任务，无需额外的预处理步骤，简化图像生...

收录时间：

2025-12-16

打开网站手机查看

OmniGen – 统一图像生成的扩散模型，支持多模态输入

OmniGen – 统一图像生成的扩散模型，支持多模态输入

OmniGen是用于统一图像生成的新扩散模型，能在单一框架内处理多种图像生成任务，如文本到图像的生成、图像编辑、主题驱动生成和视觉条件生成等。OmniGen涉及传统计算机视觉任务，将任务转化为图像生成任务增强模型的复杂图像生成能力。OmniGen的架构简化，不需要额外的文本编码器，让用户用指令完成复杂任务，无需额外的预处理步骤，简化图像生成的工作流程。OmniGen展现出推理能力和链式思考机制，能处理多步图像编辑任务，在少样本学习中展现出对新任务的快速学习能力。

官网：https://github.com/VectorSpaceLab/OmniGen

立即打开官网

数据统计

相关导航

DoraCycle – 新加坡国立大学推出多模态领域适应的统一生成模型

DoraCycle 是新加坡国立大学 Show Lab 推出...

SigLIP 2 – 谷歌 DeepMind 推出的多语言视觉语言编码器模型

SigLIP 2 是Google DeepMind 提出先进...

MLE-bench – OpenAI推出AI代理性能评估的基准测试工具

MLE-bench 是 OpenAI 推出的一个基准测试工具...

通古大模型 – 华南理工大学推出的古籍大语言模型

通古大模型是华南理工大学深度学习与视觉计算实验室（SCUT...

Llama Tutor – 开源的AI学习平台，提供学习主题生成定制学习计划

Llama Tutor 是一个基于AI的个性化学习平台，由 ...

Hi3DGen – 港中文、字节、清华联合推出的3D几何生成框架

Hi3DGen 是香港中文大学（深圳）、字节跳动和清华大学的...

LongReward – 清华、中科院、智谱AI联合推出提升长文本大语言模型性能的方法

LongReward是清华大学、中国科学院、智谱AI联合推出...

Custom-SVG – Adobe联合香港城市大学推出的SVG定制生成框架

Custom-SVG 是Adobe和香港城市大学推出的两阶段...