R1-Onevision – 开源多模态视觉推理模型，基于 Qwen2.5-VL 微调

4个月前发布 109 00

R1-Onevision 是开源的多模态大语言模型，专注于复杂视觉推理任务。基于 Qwen2.5-VL 微调而成，通过整合视觉和文本数据，能精准地进行多模态信息解释。在数学、科学、深度图像理解和逻辑推理等领域表现出色，在多项推理基准测试中超越了 Qwen2.5-VL-7B 和 GPT-4V 等模型。能同时处理图像和文本输入，通过先进的 ...

收录时间：

2025-12-16

打开网站手机查看

R1-Onevision – 开源多模态视觉推理模型，基于 Qwen2.5-VL 微调

R1-Onevision – 开源多模态视觉推理模型，基于 Qwen2.5-VL 微调

R1-Onevision 是开源的多模态大语言模型，专注于复杂视觉推理任务。基于 Qwen2.5-VL 微调而成，通过整合视觉和文本数据，能精准地进行多模态信息解释。在数学、科学、深度图像理解和逻辑推理等领域表现出色，在多项推理基准测试中超越了 Qwen2.5-VL-7B 和 GPT-4V 等模型。能同时处理图像和文本输入，通过先进的 embedding 技术实现高效的信息提取与关联。训练数据集涵盖了自然场景、科学、数学问题、OCR 内容和复杂图表等多个领域，进一步提升了模型的推理能力。

官网：https://github.com/Fancy-MLLM/R1-onevision

立即打开官网

数据统计

相关导航

Scenethesis – 英伟达推出的交互式3D场景生成框架

Scenethesis 是 NVIDIA 推出的创新框架，用...

EveryoneNobel – AI图像生成工具，生成个性化诺贝尔奖风格图像

EveryoneNobel是一个开源AI工具，为每个人生成个...

MagicQuill – 蚂蚁集团联合多所高校共同开源的AI互动式图像编辑工具

MagicQuill是香港科技大学、蚂蚁集团、浙江大学和香港...

Hi.AI – AI 聊天应用，可以创建具有独特个性的数字朋友

Hi.AI 是 AI 聊天应用，用户能创建具有独特个性的数...

AvatarGO – 南洋理工联合上海 AI Lab 等推出的4D人体与物体交互生成框架

AvatarGO 是南洋理工大学S-Lab、上海 AI La...

Docling – IBM开源的文档解析工具

Docling是开源的文档解析和转换工具，能高效地将多种格式...

TokenPony – AI大模型资源平台，一键接入自由调用

TokenPony 是为个人开发者和小型团队设计的高效 AI...

Hunyuan3D-2.1 – 腾讯混元开源的工业级3D生成模型

Hunyuan3D-2.1 是腾讯混元团队推出的开源项目，专...