OmniGen – 统一图像生成的扩散模型,支持多模态输入

1个月前发布 37 00

OmniGen是用于统一图像生成的新扩散模型,能在单一框架内处理多种图像生成任务,如文本到图像的生成、图像编辑、主题驱动生成和视觉条件生成等。OmniGen涉及传统计算机视觉任务,将任务转化为图像生成任务增强模型的复杂图像生成能力。OmniGen的架构简化,不需要额外的文本编码器,让用户用指令完成复杂任务,无需额外的预处理步骤,简化图像生...

收录时间:
2025-12-16
OmniGen – 统一图像生成的扩散模型,支持多模态输入OmniGen – 统一图像生成的扩散模型,支持多模态输入

OmniGen是用于统一图像生成的新扩散模型,能在单一框架内处理多种图像生成任务,如文本到图像的生成、图像编辑、主题驱动生成和视觉条件生成等。OmniGen涉及传统计算机视觉任务,将任务转化为图像生成任务增强模型的复杂图像生成能力。OmniGen的架构简化,不需要额外的文本编码器,让用户用指令完成复杂任务,无需额外的预处理步骤,简化图像生成的工作流程。OmniGen展现出推理能力和链式思考机制,能处理多步图像编辑任务,在少样本学习中展现出对新任务的快速学习能力。

官网:https://github.com/VectorSpaceLab/OmniGen


立即打开官网

数据统计

相关导航