Augmented Physics – 将教科书静态图表生成交互式物理模拟的AI技术
Augmented Physics是一个创新的教育工具,基于...
PaperBench是OpenAI开源的AI智能体评测基准,支持评估智能体复现顶级学术论文的能力。PaperBench要求智能体从理解论文内容到编写代码、执行实验,全面展现从理论到实践的自动化能力。PaperBench包含8316个评分节点,基于层次化评分标准,用自动评分系统提高效率。评测结果显示,目前主流AI模型在复现任务中表现不如顶级机器学习专家,表明智能体在长期任务规划和执行方面仍有不足。