MLE-bench – OpenAI推出AI代理性能评估的基准测试工具

1个月前发布 42 00

MLE-bench 是 OpenAI 推出的一个基准测试工具,旨在衡量AI代理(AI Agent)在机器学习工程任务中的表现。测试包含75个来自 Kaggle 的竞赛任务,覆盖自然语言处理、计算机视觉和信号处理等多个领域。AI 代理在这个环境中完成理解比赛描述、处理数据集、训练模型、提交结果等一系列任务,最终根据排行榜得分评估能力。MLE...

收录时间:
2025-12-16
MLE-bench – OpenAI推出AI代理性能评估的基准测试工具MLE-bench – OpenAI推出AI代理性能评估的基准测试工具

MLE-bench 是 OpenAI 推出的一个基准测试工具,旨在衡量AI代理(AI Agent)在机器学习工程任务中的表现。测试包含75个来自 Kaggle 的竞赛任务,覆盖自然语言处理、计算机视觉和信号处理等多个领域。AI 代理在这个环境中完成理解比赛描述、处理数据集、训练模型、提交结果等一系列任务,最终根据排行榜得分评估能力。MLE-bench 的设计注重挑战性和真实性,任务来源于真实的 Kaggle 竞赛,旨在全面评估 AI 代理在自动化机器学习工程方面的进展,并与人类水平进行比较。

官网:https://github.com/openai/mle-bench/


立即打开官网

数据统计

相关导航