BALROG – 基准测试工具,用于评估LLMs和VLMs在复杂动态环境中的推理能力

1个月前发布 25 00

BALROG是评估大型语言模型(LLMs)和视觉语言模型(VLMs)在游戏上的推理能力,特别是模型在动态环境中的规划、空间推理和探索能力。基于一系列挑战性的游戏环境,包括程序生成的环境如NetHack,测试模型性能。BALROG揭示了现有模型在简单任务上的成功和在复杂任务上的挑战,尤其是在涉及视觉决策时。BALROG提供开放和细粒度的评估...

收录时间:
2025-12-16
BALROG – 基准测试工具,用于评估LLMs和VLMs在复杂动态环境中的推理能力BALROG – 基准测试工具,用于评估LLMs和VLMs在复杂动态环境中的推理能力

BALROG是评估大型语言模型(LLMs)和视觉语言模型(VLMs)在游戏上的推理能力,特别是模型在动态环境中的规划、空间推理和探索能力。基于一系列挑战性的游戏环境,包括程序生成的环境如NetHack,测试模型性能。BALROG揭示了现有模型在简单任务上的成功和在复杂任务上的挑战,尤其是在涉及视觉决策时。BALROG提供开放和细粒度的评估框架,推动自主代理研究的进展。

官网:https://github.com/balrog-ai/BALROG


立即打开官网

数据统计

相关导航