MUMU – 文本和图像驱动的多模态生成模型

4个月前发布 110 00

MUMU是一种多模态图像生成模型，通过结合文本提示和参考图像来生成目标图像，从而提高生成的准确率和质量。MUMU模型的架构基于SDXL的预训练卷积UNet，采用了视觉语言模型Idefics2的隐藏状态构建。模型在训练时使用了合成数据和真实数据，通过分两个阶段的训练过程，MUMU能更好地保留条件图像的细节，并在风格转换和角色一致性等任务上展...

收录时间：

2025-12-16

打开网站手机查看

MUMU – 文本和图像驱动的多模态生成模型

MUMU – 文本和图像驱动的多模态生成模型

MUMU是一种多模态图像生成模型，通过结合文本提示和参考图像来生成目标图像，从而提高生成的准确率和质量。MUMU模型的架构基于SDXL的预训练卷积UNet，采用了视觉语言模型Idefics2的隐藏状态构建。模型在训练时使用了合成数据和真实数据，通过分两个阶段的训练过程，MUMU能更好地保留条件图像的细节，并在风格转换和角色一致性等任务上展现出泛化能力。

官网：https://arxiv.org/pdf/2406.18790

立即打开官网

数据统计

相关导航

Skywork R1V – 昆仑万维开源的多模态思维链推理模型

Skywork R1V是昆仑万维开源的首款工业界多模态思维链...

SlideChat – 上海AI Lab联合多所高校和机构推出的视觉语言助手

SlideChat是上海AI实验室、厦门大学、华东师范大学等...

TripoSR – Stability AI 联合 VAST 开源的 3D 生成模型

TripoSR是Stability AI和VAST联合推出的...

Qwen2.5-Math – 阿里Qwen团队开源的数学专项模型，超越GPT-4o

Qwen2.5-Math是由阿里巴巴Qwen团队推出的开源A...

AIMv2 – 苹果开源的多模态自回归预训练视觉模型

AIMv2是苹果公司开源的多模态自回归预训练视觉模型，通过图...

Spatial-RAG – 埃默里大学等机构推出的空间推理能力框架

Spatial-RAG（Spatial Retrieval...

pdf-craft – 开源 PDF 转 Markdown 工具

pdf-craft 是用在将 PDF 文件转换为其他格式（如...

CogVLM2 – 智谱AI推出的新一代多模态大模型

CogVLM2是由智谱AI推出的新一代多模态大模型，在视觉和...