MLE-bench – OpenAI推出AI代理性能评估的基准测试工具

4个月前发布 144 00

MLE-bench 是 OpenAI 推出的一个基准测试工具，旨在衡量AI代理（AI Agent）在机器学习工程任务中的表现。测试包含75个来自 Kaggle 的竞赛任务，覆盖自然语言处理、计算机视觉和信号处理等多个领域。AI 代理在这个环境中完成理解比赛描述、处理数据集、训练模型、提交结果等一系列任务，最终根据排行榜得分评估能力。MLE...

收录时间：

2025-12-16

打开网站手机查看

MLE-bench – OpenAI推出AI代理性能评估的基准测试工具

MLE-bench – OpenAI推出AI代理性能评估的基准测试工具

MLE-bench 是 OpenAI 推出的一个基准测试工具，旨在衡量AI代理（AI Agent）在机器学习工程任务中的表现。测试包含75个来自 Kaggle 的竞赛任务，覆盖自然语言处理、计算机视觉和信号处理等多个领域。AI 代理在这个环境中完成理解比赛描述、处理数据集、训练模型、提交结果等一系列任务，最终根据排行榜得分评估能力。MLE-bench 的设计注重挑战性和真实性，任务来源于真实的 Kaggle 竞赛，旨在全面评估 AI 代理在自动化机器学习工程方面的进展，并与人类水平进行比较。

官网：https://github.com/openai/mle-bench/

立即打开官网

数据统计

相关导航

AlphaQubit – 谷歌推出的量子错误解码器

AlphaQubit是谷歌推出基于AI技术的量子错误解码器...

RAGEN – 训练大模型推理 Agent 的开源强化学习框架

RAGEN是开源的强化学习框架，用于在交互式、随机环境中训练...

DeepSeek R1-Zero – DeepSeek推出的开源推理模型，基于纯强化学习训练

DeepSeek R1-Zero 是 DeepSeek 团队...

GLM-Z1-Rumination – 智谱推出的沉思模型

GLM-Z1-Rumination 是智谱推出的沉思模型，基...

DualPipe – DeepSeek 开源的双向流水线并行技术

DualPipe 是 DeepSeek 开源的创新的双向流水...

HuatuoGPT-o1 – 港中文联合深圳大数据研究院开源的医学高级推理大模型

HuatuoGPT-o1是香港中文大学（深圳）和深圳大数据研...

Florence-2 – 微软 Azure AI 团队推出的多功能视觉语言模型

Florence-2 是微软 Azure AI 团队推出的多...

RF-DETR – Roboflow推出的实时目标检测模型

RF-DETR是Roboflow推出的实时目标检测模型。RF...