MiMo-VL – 小米开源的多模态大模型

4个月前发布 109 00

MiMo-VL 是小米开源的多模态大模型，由视觉编码器、跨模态投影层和语言模型构成，视觉编码器基于Qwen2.5-ViT，语言模型是小米自研的MiMo-7B。采用多阶段预训练策略，使用2.4T tokens的多模态数据，通过混合在线强化学习提升性能。在基础视觉理解、复杂推理、GUI交互等任务上表现出色，如在MMMU-val上达66.7...

收录时间：

2025-12-16

打开网站手机查看

MiMo-VL – 小米开源的多模态大模型

MiMo-VL – 小米开源的多模态大模型

MiMo-VL 是小米开源的多模态大模型，由视觉编码器、跨模态投影层和语言模型构成，视觉编码器基于Qwen2.5-ViT，语言模型是小米自研的MiMo-7B。采用多阶段预训练策略，使用2.4T tokens的多模态数据，通过混合在线强化学习提升性能。在基础视觉理解、复杂推理、GUI交互等任务上表现出色，如在MMMU-val上达66.7%，超越Gemma 3 27B；在OlympiadBench上达59.4%，超越72B模型。

官网：https://github.com/XiaomiMiMo/MiMo-VL

立即打开官网

数据统计

相关导航

DeepCoder-14B-Preview – Agentica 联合 Together AI 开源的代码生成模型

DeepCoder-14B-Preview 是 Agenti...

RWKV-7 – RWKV系列的最新大模型架构版本，有强大的上下文学习能力

RWKV-7是RWKV系列的最新大模型架构版本，超越了传统的...

NMT – 阿里联合 UC Berkeley 推出的多任务学习框架

NMT（No More Tuning）是UC Berkele...

VLM-R1 – 浙大 Om AI Lab 推出的视觉语言模型

VLM-R1 是 Om AI Lab 推出的基于强化学习技术...

Mini-InternVL – 上海AI Lab联合清华等机构推出的轻量级多模态大模型

Mini-InternVL是“迷你版”书生·万象大模型，是上...

Seed1.5-Embedding – 字节跳动 Seed 团队推出的向量模型

Seed1.5-Embedding 是字节跳动 Seed 团...

SWEET-RL – Meta 推出的多轮强化学习框架

SWEET-RL是Meta推出的多轮强化学习框架，专门用在训...

MLE-Agent – 工程师的AI智能助手，自动创建基线模型

MLE-Agent 是一款专为机器学习工程师和研究人员设计的...