Math24o – SuperCLUE 开源的高中奥林匹克数学竞赛推理测评基准

4个月前发布 103 00

Math24o 是中文大模型测评基准 SuperCLUE 开源的高中奥林匹克数学竞赛级别的数学推理测评基准。主要用于评估大型语言模型在数学推理方面的能力。使用2024年全国高中数学竞赛的部分预赛试题，包含21道高难度解答题，答案唯一且为整数或小数。测评通过程序自动判断模型答案与参考答案是否一致，以客观评估模型的正确率。测评基准能有效衡量语...

收录时间：

2025-12-16

打开网站手机查看

Math24o – SuperCLUE 开源的高中奥林匹克数学竞赛推理测评基准

Math24o – SuperCLUE 开源的高中奥林匹克数学竞赛推理测评基准

Math24o 是中文大模型测评基准 SuperCLUE 开源的高中奥林匹克数学竞赛级别的数学推理测评基准。主要用于评估大型语言模型在数学推理方面的能力。使用2024年全国高中数学竞赛的部分预赛试题，包含21道高难度解答题，答案唯一且为整数或小数。测评通过程序自动判断模型答案与参考答案是否一致，以客观评估模型的正确率。测评基准能有效衡量语言模型在解决复杂数学问题时的表现，为相关研究和开发提供了有力的工具。

官网：https://github.com/CLUEbenchmark/Math24o

立即打开官网

数据统计

相关导航

BAG – 港中文联合腾讯推出的3D可穿戴资产生成技术

BAG（Body-Aligned 3D Wearable A...

Pixel3DMM – 慕尼黑联合伦敦大学等推出的3D人脸重建框架

Pixel3DMM是慕尼黑工业大学、伦敦大学学院和Synth...

文墨启名 – 融合中国传统文化的AI取名字应用

文墨启名（InkInspire Names）是一款融合中国传...

SPRIGHT – 专注于空间关系的大型视觉语言数据集

SPRIGHT（SPatially RIGHT）是亚利桑那州...

AIMv2 – 苹果开源的多模态自回归预训练视觉模型

AIMv2是苹果公司开源的多模态自回归预训练视觉模型，通过图...

MT-Color – 上海交大联合哔哩哔哩推出的可控图像着色框架

MT-Color是上海交通大学联合哔哩哔哩推出的基于扩散模型...

RuoYi AI – 全栈式 AI 开发平台，快速搭建个性化 AI 应用

RuoYi AI 是全栈式 AI 开发平台，提供完整的前端...

LLaVA-o1 – 北大清华联合多所机构推出开源的视觉语言模型

LLaVA-o1是北京大学、清华大学、鹏城实验室、阿里巴巴达...