SWE-Lancer – OpenAI 推出的大模型基准测试

4个月前发布 133 00

SWE-Lancer 是 OpenAI 推出的大模型基准测试，评估前沿语言模型（LLMs）在自由职业软件工程任务中的表现。包含来自 Upwork 的 1400 多个任务，总价值达 100 万美元，分为个人贡献者（IC）任务和管理任务。IC 任务涵盖从简单修复到复杂功能开发，管理任务则要求模型选择最佳技术方案。SWE-Lancer 的任务设...

收录时间：

2025-12-16

打开网站手机查看

SWE-Lancer – OpenAI 推出的大模型基准测试

SWE-Lancer – OpenAI 推出的大模型基准测试

SWE-Lancer 是 OpenAI 推出的大模型基准测试，评估前沿语言模型（LLMs）在自由职业软件工程任务中的表现。包含来自 Upwork 的 1400 多个任务，总价值达 100 万美元，分为个人贡献者（IC）任务和管理任务。IC 任务涵盖从简单修复到复杂功能开发，管理任务则要求模型选择最佳技术方案。SWE-Lancer 的任务设计贴近真实软件工程场景，涉及全栈开发、API 交互等复杂场景。通过专业工程师的验证和测试，基准测试能评估模型的编程能力，衡量在实际任务中的经济效益。

官网：https://github.com/openai/SWELancer-Benchmark

立即打开官网

数据统计

相关导航

LanPaint – 零训练 AI 图像修复工具

LanPaint 是用在Stable Diffusion 模...

MoMask – 文本驱动生成高质量3D人体动作的模型

MoMask是创新的3D人体动作生成工具，通过生成式掩码建模...

Show-o – 新加坡国立Show Lab联合字节推出的多模态理解与生成的统一模型

Show-o是集成了多模态理解和生成的统一Transform...

InvSR – 开源图像超分辨率模型，高清修复老旧照片

InvSR是创新的图像超分辨率模型，基于扩散模型的逆过程恢复...

DBCopilot – 火山引擎推出的数据库智能助手

DBCopilot 是火山引擎推出的国内首个数据库智能助手...

7个免费Sora视频去水印工具，AI一键去除视频水印

最近收到友友们咨询最多的，就是关于AI视频去水印的问题。官网...

StereoCrafter – 腾讯开源将任意2D视频转为立体3D视频的框架

StereoCrafter是腾讯AI Lab和ARC Lab...

PanoDreamer – 单张图像生成连贯360° 3D场景的新方法

PanoDreamer是能够从单张图像生成连贯的360° 3...