OThink-MR1 – OPPO联合港科大推出的多模态语言模型优化框架

1个月前发布 24 00

OThink-MR1是OPPO研究院和香港科技大学(广州)联合推出的多模态语言模型优化框架。基于动态调整Kullback-Leibler(KL)散度策略(GRPO-D)和奖励模型,提升多模态模型在复杂任务中的泛化推理能力。OThink-MR1在视觉计数和几何推理等多模态任务中表现出色,在同任务验证中超越传统的监督微调(SFT)方法,在跨任...

收录时间:
2025-12-16
OThink-MR1 – OPPO联合港科大推出的多模态语言模型优化框架OThink-MR1 – OPPO联合港科大推出的多模态语言模型优化框架

OThink-MR1是OPPO研究院和香港科技大学(广州)联合推出的多模态语言模型优化框架。基于动态调整Kullback-Leibler(KL)散度策略(GRPO-D)和奖励模型,提升多模态模型在复杂任务中的泛化推理能力。OThink-MR1在视觉计数和几何推理等多模态任务中表现出色,在同任务验证中超越传统的监督微调(SFT)方法,在跨任务泛化实验中展现强大的适应性。OThink-MR1为多模态模型的通用推理能力发展开辟新路径,有望在更多领域发挥重要作用。

官网:https://arxiv.org/pdf/2503.16081


立即打开官网

数据统计

相关导航