Circuit Tracer – Anthropic开源的AI模型内部决策追踪工具

1个月前发布 33 00

Circuit Tracer 是 Anthropic 推出的开源工具,用在研究大型语言模型的内部工作机制。Circuit Tracer 基于生成归因图(attribution graphs)揭示模型在生成特定输出时内部所经历的步骤。归因图能帮助研究人员追踪模型的决策过程、可视化特征之间的关系,测试不同的假设。Circuit Tracer ...

收录时间:
2025-12-16
Circuit Tracer – Anthropic开源的AI模型内部决策追踪工具Circuit Tracer – Anthropic开源的AI模型内部决策追踪工具

Circuit Tracer 是 Anthropic 推出的开源工具,用在研究大型语言模型的内部工作机制。Circuit Tracer 基于生成归因图(attribution graphs)揭示模型在生成特定输出时内部所经历的步骤。归因图能帮助研究人员追踪模型的决策过程、可视化特征之间的关系,测试不同的假设。Circuit Tracer 支持多种流行的开源模型,如 Gemma 和 Llama ,基于 Neuronpedia 提供交互式可视化界面,方便用户探索和分析模型行为。

官网:https://github.com/safety-research/circuit-tracer


立即打开官网

数据统计

相关导航