HelloBench – 评估LLMs长文本生成能力的开源基准测试工具

4个月前发布 106 00

HelloBench是一个用于评估大型语言模型（LLMs）长文本生成能力的开源基准测试。HelloBench包含五个基于布鲁姆分类法的子任务：开放式问答、摘要、聊天、文本补全和启发式文本生成。HelloBench用真实场景数据，如Quora和Reddit，确保任务的多样性和实际性。引入HelloEval，一种高效的评估方法，减少人工评估的...

收录时间：

2025-12-16

打开网站手机查看

HelloBench – 评估LLMs长文本生成能力的开源基准测试工具

HelloBench – 评估LLMs长文本生成能力的开源基准测试工具

HelloBench是一个用于评估大型语言模型（LLMs）长文本生成能力的开源基准测试。HelloBench包含五个基于布鲁姆分类法的子任务：开放式问答、摘要、聊天、文本补全和启发式文本生成。HelloBench用真实场景数据，如Quora和Reddit，确保任务的多样性和实际性。引入HelloEval，一种高效的评估方法，减少人工评估的负担，同时保持与人类评价的高相关性。HelloBench在多个LLMs上的实验显示，现有模型在生成超过4000单词的长文本方面存在挑战。

官网：https://github.com/Quehry/HelloBench

立即打开官网

数据统计

相关导航

EyeDiff – 文本到图像扩散模型，自然语言生成多模态眼科图像

EyeDiff是文本到图像的扩散模型，基于自然语言提示生成多...

DiffEditor – 北大联合腾讯推出的细粒度图像编辑工具

DiffEditor是北京大学深圳研究生院与腾讯PCG的研究...

AipexBase – 跨赴科技开源的首个AI原生后端服务平台

AipexBase 是中国首个开源的 AI 原生后端服务（B...

MotionFix – 开源3D人体动作编辑项目，文本驱动指导和编辑3D人体动作

MotionFix是开源的3D人体动作编辑项目，通过结合自然...

SEMIKONG – 专为半导体领域设计的大型语言模型

SEMIKONG是专门为半导体行业定制的大型语言模型（LLM...

FlowGram – 字节跳动开源的可视化工作流搭建引擎

FlowGram是字节跳动开源的基于节点编辑的可视化工作流搭...

LongWriter – 清华联合智谱AI推出的长文本生成模型

LongWriter 是清华大学联合智谱AI 推出的长文本...

LoveyDovey – AI社交应用，与自定义角色进行实时对话

LoveyDovey是AI社交应用，支持用户与自己想象中的角...