DeepSeek-GRM – DeepSeek 联合清华推出的通用奖励模型
DeepSeek-GRM是 DeepSeek 和清华大学研究...
FACTS Grounding是谷歌DeepMind推出的评估大型语言模型(LLMs)能力的基准测试,衡量模型根据给定上下文生成事实准确且无捏造信息的文本的能力。FACTS Grounding测试集包含1719个跨多个领域的示例,要求模型响应必须基于长达32000个token的文档,涵盖摘要、问答和改写等任务。评估用Gemini、GPT-4o和Claude三款模型,分两个阶段:资格评估和事实准确性评估,增强模型的信任度和应用范围。
官网:https://storage.googleapis.com/deepmind-media/FACTS/FACTS_grounding_paper.pdf