AxBench – 斯坦福大学推出评估语言模控制方法的基准测试框架

4个月前发布 103 00

AxBench 是斯坦福大学推出的评估语言模型（LM）可解释性方法的基准测试框架。基于合成数据生成训练和评估数据，比较不同模型控制技术在概念检测和模型转向两个方面的表现。概念检测任务基于标记的合成数据评估模型对特定概念的识别能力；模型转向任务用长文本生成任务评估模型在干预后的表现，用另一个语言模型作为“裁判”评分。AxBench为研究者提...

收录时间：

2025-12-16

打开网站手机查看

AxBench – 斯坦福大学推出评估语言模控制方法的基准测试框架

AxBench – 斯坦福大学推出评估语言模控制方法的基准测试框架

AxBench 是斯坦福大学推出的评估语言模型（LM）可解释性方法的基准测试框架。基于合成数据生成训练和评估数据，比较不同模型控制技术在概念检测和模型转向两个方面的表现。概念检测任务基于标记的合成数据评估模型对特定概念的识别能力；模型转向任务用长文本生成任务评估模型在干预后的表现，用另一个语言模型作为“裁判”评分。AxBench为研究者提供统一的平台，用在系统地评估和比较各种语言模型控制方法的有效性，推动语言模型的安全性和可靠性研究。

官网：https://github.com/stanfordnlp/axbench

立即打开官网

数据统计

相关导航

Devstral – Mistral AI联合All Hands AI开源的编程专用AI模型

Devstral是Mistral AI和All Hands ...

MobileLLM – Meta推出的适合移动端的语言模型

MobileLLM是Meta为移动设备用例优化设计的十亿参数...

MT-MegatronLM – 摩尔线程开源的混合并行训练框架

MT-MegatronLM 是摩尔线程推出的面向全功能 GP...

ReasonIR-8B – Meta AI 推出专为推理密集型检索任务设计的模型

ReasonIR-8B 是 Meta AI 推出的专为推理密...

InftyThink – 浙大联合北大推出的无限深度推理范式

InftyThink是创新的大模型推理范式，突破传统模型在长...

EVE – AI社交伴侣，实现多模态交互和3D互动

EVE是一款由自然选择（深圳）智能有限公司推出的3D AI伴...

洞图 – AI图片处理工具，具有多种趣味、便捷图片编辑功能

洞图是多功能AI图片处理工具。具备多种特色功能，包括制作隐藏...

Hunyuan3D 2.0 – 腾讯推出的大规模 3D 资产生成系统

Hunyuan3D 2.0 是腾讯推出的大规模 3D 资产生...