MUMU – 文本和图像驱动的多模态生成模型

1个月前发布 28 00

MUMU是一种多模态图像生成模型,通过结合文本提示和参考图像来生成目标图像,从而提高生成的准确率和质量。MUMU模型的架构基于SDXL的预训练卷积UNet,采用了视觉语言模型Idefics2的隐藏状态构建。模型在训练时使用了合成数据和真实数据,通过分两个阶段的训练过程,MUMU能更好地保留条件图像的细节,并在风格转换和角色一致性等任务上展...

收录时间:
2025-12-16
MUMU – 文本和图像驱动的多模态生成模型MUMU – 文本和图像驱动的多模态生成模型

MUMU是一种多模态图像生成模型,通过结合文本提示和参考图像来生成目标图像,从而提高生成的准确率和质量。MUMU模型的架构基于SDXL的预训练卷积UNet,采用了视觉语言模型Idefics2的隐藏状态构建。模型在训练时使用了合成数据和真实数据,通过分两个阶段的训练过程,MUMU能更好地保留条件图像的细节,并在风格转换和角色一致性等任务上展现出泛化能力。

官网:https://arxiv.org/pdf/2406.18790


立即打开官网

数据统计

相关导航