HealthBench – OpenAI推出的开源医疗测试基准

4个月前更新 110 00

HealthBench是OpenAI推出的开源医疗测试基准，用在评估大型语言模型（LLMs）在医疗保健领域的表现和安全性。HealthBench包含5000个模型与用户或医疗专业人员之间的多轮对话，用262名医生创建的对话特定评分标准进行评估。对话覆盖多种健康情境（如紧急情况、临床数据转换、全球健康）和行为维度（如准确性、指令遵循、沟通...

收录时间：

2025-12-16

打开网站手机查看

HealthBench – OpenAI推出的开源医疗测试基准

HealthBench – OpenAI推出的开源医疗测试基准

HealthBench是OpenAI推出的开源医疗测试基准，用在评估大型语言模型（LLMs）在医疗保健领域的表现和安全性。HealthBench包含5000个模型与用户或医疗专业人员之间的多轮对话，用262名医生创建的对话特定评分标准进行评估。对话覆盖多种健康情境（如紧急情况、临床数据转换、全球健康）和行为维度（如准确性、指令遵循、沟通）。HealthBench能衡量模型的整体表现，按主题（如紧急转诊、全球健康）和行为维度（如临床准确性、沟通质量）细分评估，帮助诊断不同AI模型的具体行为表现，指出需要改进的对话类型和性能维度。

官网：https://github.com/openai/simple-evals

立即打开官网

数据统计

相关导航

OmniVision – 专为边缘设备优化的最小参数多模态模型

OmniVision是紧凑的多模态模型，拥有968M参数，专...

SuperGPQA – 豆包大模型联合 M-A-P 开源的知识推理基准测试集

SuperGPQA 是字节跳动豆包大模型团队联合 M-A...

Thinking Claude – 17岁高中生推出的神级Prompt工具，AI 思维更接近人类

Thinking Claude是基于深度思考协议和浏览器扩展...

LIMO – 上海交大推出的高效推理方法，仅需817条训练样本

LIMO（Less Is More for Reasonin...

Sky-T1 – NovaSky 开源的推理 AI 模型，可从零开始复现该模型

Sky-T1是加州大学伯克利分校Sky Computing实...

Ferret-UI 2 – 苹果推出的跨平台UI理解多模态大语言模型

Ferret-UI 2是苹果公司推出的多模态大型语言模型，用...

TokenSwift – 超长文本生成加速框架，90分钟内生成10万Token文本

TokenSwift 是北京通用人工智能研究院团队推出的超长...

Lovekey键盘 – 恋爱聊天AI帮回复应用，自动一键回复

Lovekey键盘是专为恋爱聊天设计的输入法应用，通过智能分...