BALROG – 基准测试工具，用于评估LLMs和VLMs在复杂动态环境中的推理能力

4个月前发布 97 00

BALROG是评估大型语言模型（LLMs）和视觉语言模型（VLMs）在游戏上的推理能力，特别是模型在动态环境中的规划、空间推理和探索能力。基于一系列挑战性的游戏环境，包括程序生成的环境如NetHack，测试模型性能。BALROG揭示了现有模型在简单任务上的成功和在复杂任务上的挑战，尤其是在涉及视觉决策时。BALROG提供开放和细粒度的评估...

收录时间：

2025-12-16

打开网站手机查看

BALROG – 基准测试工具，用于评估LLMs和VLMs在复杂动态环境中的推理能力

BALROG – 基准测试工具，用于评估LLMs和VLMs在复杂动态环境中的推理能力

BALROG是评估大型语言模型（LLMs）和视觉语言模型（VLMs）在游戏上的推理能力，特别是模型在动态环境中的规划、空间推理和探索能力。基于一系列挑战性的游戏环境，包括程序生成的环境如NetHack，测试模型性能。BALROG揭示了现有模型在简单任务上的成功和在复杂任务上的挑战，尤其是在涉及视觉决策时。BALROG提供开放和细粒度的评估框架，推动自主代理研究的进展。

官网：https://github.com/balrog-ai/BALROG

立即打开官网

数据统计

相关导航

OmniManip – 智元机器人联合北大推出的通用机器人操作框架

OmniManip 是北京大学与智元机器人联合实验室开发的通...

CHANGER – AI换头技术，将演员头部无缝集成到目标身体

CHANGER是工业级超自然AI换头与色键技术，用在数字内容...

Concept Lancet – 宾夕法尼亚大学推出的图像编辑框架

Concept Lancet（CoLan）是宾夕法尼亚大学的...

WorldScore – 斯坦福大学推出的世界生成模型统一评估基准

WorldScore 是斯坦福大学提出的用于世界生成模型的统...

Math24o – SuperCLUE 开源的高中奥林匹克数学竞赛推理测评基准

Math24o 是中文大模型测评基准 SuperCLUE 开...

Tesseract – 开源的光学字符识别引擎，支持多种语言文字识别

Tesseract 是开源的光学字符识别（OCR）引擎，Go...

PixelFlow – 港大联合 Adobe 推出的图像生成模型

PixelFlow 是香港大学和Adobe联合推出的图像生...

OpenEMMA – 德克萨斯联合多伦多等大学开源的端到端自动驾驶多模态模型

OpenEMMA是德州农工大学、密歇根大学和多伦多大学共同开...