OThink-MR1 – OPPO联合港科大推出的多模态语言模型优化框架

4个月前发布 109 00

OThink-MR1是OPPO研究院和香港科技大学（广州）联合推出的多模态语言模型优化框架。基于动态调整Kullback-Leibler（KL）散度策略（GRPO-D）和奖励模型，提升多模态模型在复杂任务中的泛化推理能力。OThink-MR1在视觉计数和几何推理等多模态任务中表现出色，在同任务验证中超越传统的监督微调（SFT）方法，在跨任...

收录时间：

2025-12-16

打开网站手机查看

OThink-MR1 – OPPO联合港科大推出的多模态语言模型优化框架

OThink-MR1 – OPPO联合港科大推出的多模态语言模型优化框架

OThink-MR1是OPPO研究院和香港科技大学（广州）联合推出的多模态语言模型优化框架。基于动态调整Kullback-Leibler（KL）散度策略（GRPO-D）和奖励模型，提升多模态模型在复杂任务中的泛化推理能力。OThink-MR1在视觉计数和几何推理等多模态任务中表现出色，在同任务验证中超越传统的监督微调（SFT）方法，在跨任务泛化实验中展现强大的适应性。OThink-MR1为多模态模型的通用推理能力发展开辟新路径，有望在更多领域发挥重要作用。

官网：https://arxiv.org/pdf/2503.16081

立即打开官网

数据统计

相关导航

AppFlowy – 开源的AI笔记和任务管理工具，对标Notion

AppFlowy 是一个开源的笔记和任务管理工具，被设计为 ...

Scenethesis – 英伟达推出的交互式3D场景生成框架

Scenethesis 是 NVIDIA 推出的创新框架，用...

LEOPARD – 腾讯AI Lab西雅图实验室推出的视觉语言模型

LEOPARD是腾讯AI Lab西雅图实验室推出的视觉语言模...

Skywork R1V – 昆仑万维开源的多模态思维链推理模型

Skywork R1V是昆仑万维开源的首款工业界多模态思维链...

JoyCaption – 开源的图像提示词生成工具

JoyCaption 是开源的图像提示词生成工具，用于训练扩...

URM – 阿里妈妈推出的世界知识大模型

URM（Universal Recommendation M...

PaliGemma 2 mix – 谷歌DeepMind推出的升级版视觉语言模型

PaliGemma 2 Mix是谷歌DeepMind发布的最...

DistriFusion – 高分辨率扩散模型的分布式并行推理框架

DistriFusion是高分辨率扩散模型的分布式并行推理框...