MiMo-VL – 小米开源的多模态大模型

1个月前发布 27 00

MiMo-VL 是小米开源的多模态大模型,由视觉编码器、跨模态投影层和语言模型构成,视觉编码器基于Qwen2.5-ViT,语言模型是小米自研的MiMo-7B。采用多阶段预训练策略,使用2.4T tokens的多模态数据,通过混合在线强化学习提升性能。在基础视觉理解、复杂推理、GUI交互等任务上表现出色,如在MMMU-val上达66.7...

收录时间:
2025-12-16
MiMo-VL – 小米开源的多模态大模型MiMo-VL – 小米开源的多模态大模型

MiMo-VL 是小米开源的多模态大模型,由视觉编码器、跨模态投影层和语言模型构成,视觉编码器基于Qwen2.5-ViT,语言模型是小米自研的MiMo-7B。采用多阶段预训练策略,使用2.4T tokens的多模态数据,通过混合在线强化学习提升性能。在基础视觉理解、复杂推理、GUI交互等任务上表现出色,如在MMMU-val上达66.7%,超越Gemma 3 27B;在OlympiadBench上达59.4%,超越72B模型。

官网:https://github.com/XiaomiMiMo/MiMo-VL


立即打开官网

数据统计

相关导航