Kimi-VL – 月之暗面开源的轻量级多模态视觉语言模型

1个月前发布 26 00

Kimi-VL 是月之暗面开源的轻量级多模态视觉语言模型,基于轻量级MoE模型Moonlight(16B总参数,2.8B激活参数)和原生分辨率的MoonViT视觉编码器(400M参数)。Kimi-VL支持单图、多图、视频和长文档等多模态输入,在图像感知、数学、多学科题目、OCR等任务中表现出色,尤其在长上下文(128K)和复杂推理方面有优...

收录时间:
2025-12-16
Kimi-VL – 月之暗面开源的轻量级多模态视觉语言模型Kimi-VL – 月之暗面开源的轻量级多模态视觉语言模型

Kimi-VL 是月之暗面开源的轻量级多模态视觉语言模型,基于轻量级MoE模型Moonlight(16B总参数,2.8B激活参数)和原生分辨率的MoonViT视觉编码器(400M参数)。Kimi-VL支持单图、多图、视频和长文档等多模态输入,在图像感知、数学、多学科题目、OCR等任务中表现出色,尤其在长上下文(128K)和复杂推理方面有优势。在数学推理、长视频理解等任务中表现优异,超越 GPT-4o 等模型。Kimi-VL推出支持长思考的模型版本 Kimi-VL-Thinking,基于长链推理微调和强化学习,仅2.8B 激活参数,在较高推理难度的基准测试中,部分成绩接近甚至超过超大尺寸的前沿模型。

官网:https://github.com/MoonshotAI/Kimi-VL


立即打开官网

数据统计

相关导航