CodeElo – 阿里 Qwen 团队推出评估 LLM 编程能力的基准测试

3个月前发布 66 00

CodeElo 是用于评估大型语言模型（LLMs）在编程竞赛级别代码生成能力的基准测试工具。通过与人类程序员的 Elo 评级系统进行比较，来衡量 LLMs 的编程水平。工具从 CodeForces 平台选择题目，按比赛分区、难度级别和算法标签进行分类，确保问题的多样性和代表性。CodeElo 的评估方法非常稳健，提交的代码直接在 Co...

收录时间：

2025-12-16

打开网站手机查看

CodeElo – 阿里 Qwen 团队推出评估 LLM 编程能力的基准测试

CodeElo – 阿里 Qwen 团队推出评估 LLM 编程能力的基准测试

CodeElo 是用于评估大型语言模型（LLMs）在编程竞赛级别代码生成能力的基准测试工具。通过与人类程序员的 Elo 评级系统进行比较，来衡量 LLMs 的编程水平。工具从 CodeForces 平台选择题目，按比赛分区、难度级别和算法标签进行分类，确保问题的多样性和代表性。CodeElo 的评估方法非常稳健，提交的代码直接在 CodeForces 平台上进行测试，基于特殊的评估机制，确保准确判断代码的正确性。使用 Elo 评级系统来计算评分，考虑问题难度并对错误进行惩罚。在对多个开源和专有 LLM 进行测试后，OpenAI 的 o1-mini 模型表现最佳，超过了 90% 的人类参与者。CodeElo 的推出旨在解决现有基准测试的局限性，提供一个更全面、准确的评估环境，帮助研究人员和开发者更好地理解和改进 LLMs 的编程能力。

官网：https://huggingface.co/datasets/Qwen/CodeElo

立即打开官网

数据统计

相关导航

DiffEditor – 北大联合腾讯推出的细粒度图像编辑工具

DiffEditor是北京大学深圳研究生院与腾讯PCG的研究...

RAG Logger – 专为检索增强生成应用设计的开源日志工具

RAG Logger是开源的日志记录工具，专为检索增强生成...

DeepSeek Engineer – 开源AI编程助手，处理用户对话生成结构化JSON

DeepSeek Engineer 是集成DeepSeek ...

SmolLM2 – Hugging Face推出的紧凑型大语言模型

SmolLLM2是Hugging Face推出用在设备端应用...

Qwen2.5 – 阿里通义千问团队最新开源的最强AI大模型

Qwen2.5 是阿里通义千问团队最新开源的最强AI大模型...

SDXL-EcomID – 阿里推出的单个参考图像生成定制的个性图像框架

SDXL-EcomID是阿里妈妈推出的开源项目，从单个参考图...

RMBG-2.0 – 开源的图像背景移除模型，支持各类图像高精度背景移除

RMBG-2.0是BRIA AI推出的最新开源图像背景移除模...

OLMo 2 32B – Ai2 推出的最新开源语言模型

OLMo 2 32B 是 Allen Institute f...