FACTS Grounding – 谷歌推出的评估大模型能力的基准测试

4个月前发布 110 00

FACTS Grounding是谷歌DeepMind推出的评估大型语言模型（LLMs）能力的基准测试，衡量模型根据给定上下文生成事实准确且无捏造信息的文本的能力。FACTS Grounding测试集包含1719个跨多个领域的示例，要求模型响应必须基于长达32000个token的文档，涵盖摘要、问答和改写等任务。评估用Gemini、GPT...

收录时间：

2025-12-16

打开网站手机查看

FACTS Grounding – 谷歌推出的评估大模型能力的基准测试

FACTS Grounding – 谷歌推出的评估大模型能力的基准测试

FACTS Grounding是谷歌DeepMind推出的评估大型语言模型（LLMs）能力的基准测试，衡量模型根据给定上下文生成事实准确且无捏造信息的文本的能力。FACTS Grounding测试集包含1719个跨多个领域的示例，要求模型响应必须基于长达32000个token的文档，涵盖摘要、问答和改写等任务。评估用Gemini、GPT-4o和Claude三款模型，分两个阶段：资格评估和事实准确性评估，增强模型的信任度和应用范围。

官网：https://storage.googleapis.com/deepmind-media/FACTS/FACTS_grounding_paper.pdf

立即打开官网

数据统计

相关导航

DINO-X – IDEA 研究院推出的通用视觉大模型

DINO-X是IDEA研究院推出的通用视觉大模型，具备开放世...

ScriptViz – 斯坦福大学推出的剧本可视化AI辅助工具

ScriptViz是由斯坦福大学研究人员推出的一款剧本可视化...

Phi-3 – 微软最新推出的新一代小模型系列

Phi-3是微软研究院推出的新一代系列先进的小语言模型，包括...

Mooncake – 月之暗面Kimi联合清华等机构推出的大模型推理架构

Mooncake是月之暗面 Kimi 联合清华大学等机构共同...

Follow-Your-Emoji – 腾讯等推出的基于扩散模型的人像动画框架

Follow-Your-Emoji是由香港科技大学、腾讯混元...

LangFlow – AI应用构建工具，拖拽组件创建复杂工作流

LangFlow 是低代码、可视化的 AI 应用构建工具...

Wavy – AI图片处理应用，可实现图像增强、扩图、对象删除、艺术风格形象

Wavy是AI驱动的照片编辑应用，基于先进的AI技术，将用户...

Pidgeon – AI新闻聚合应用，全球新闻动态智能提取关键摘要

Pidgeon是基于人工智能的智能新闻聚合应用，它通过AI技...