Self-Taught Evaluators – Meta推出的新型模型评估方法

4个月前发布 152 00

Self-Taught Evaluators是一种新型的模型评估方法，基于自我训练的方式提高大型语言模型（LLM）的评估能力，无需人工标注数据。从未经标记的指令开始，用迭代自我改进方案生成对比模型输出。用LLM作为裁判，生成推理轨迹和最终判断。在每次迭代中重复，用改进的预测训练模型。在实验中，Self-Taught Evaluators提...

收录时间：

2025-12-16

打开网站手机查看

Self-Taught Evaluators – Meta推出的新型模型评估方法

Self-Taught Evaluators – Meta推出的新型模型评估方法

Self-Taught Evaluators是一种新型的模型评估方法，基于自我训练的方式提高大型语言模型（LLM）的评估能力，无需人工标注数据。从未经标记的指令开始，用迭代自我改进方案生成对比模型输出。用LLM作为裁判，生成推理轨迹和最终判断。在每次迭代中重复，用改进的预测训练模型。在实验中，Self-Taught Evaluators提高基于Llama3-70B-Instruct模型的评估准确性，从75.4提高到88.3，在多数投票的情况下达到88.7，超越常用的LLM裁判如GPT-4，与用人工标注数据训练的顶级奖励模型性能相当。

官网：https://github.com/facebookresearch/RAM/tree/main/projects/self_taught_evaluator

立即打开官网

数据统计

相关导航

BioMedGPT-R1 – 清华联合水木分子推出的多模态生物医药大模型

BioMedGPT-R1 是清华大学AI产业研究院（AIR...

MSQA – 大规模多模态3D情境推理数据集

MSQA（Multi-modal Situated Ques...

豆包MarsCode

字节推出的AI编程助手（已合并至Trae）官网：https...

Fancy123 – 华中科技和华南理工推出的3D网格生成技术

Fancy123是华中科技大学和华南理工大学推出的3D网格生...

LMEval – 谷歌开源的统一评估多模态AI模型框架

LMEval 是谷歌推出的开源框架，用在简化大型模型（LLM...

LaWGPT – 南京大学推出的中文法律大语言模型

LaWGPT 是南京大学推出的中文法律大语言模型，基于 ...

JoyCaption – 开源的图像提示词生成工具

JoyCaption 是开源的图像提示词生成工具，用于训练扩...

DeepRAG – 中科院、中科大和腾讯微信AI部联合推出的新型检索增强生成框架

DeepRAG 是中科院、中科大和腾讯微信AI部联合推出的新...