TPO – AI优化框架，动态调整推理模型的输出，更符合人类偏好

3个月前发布 86 00

TPO（Test-Time Preference Optimization）是新型的AI优化框架，在推理阶段对语言模型输出进行动态优化，更符合人类偏好。TPO通过将奖励信号转化为文本反馈，将模型生成的优质响应标记为“选择”输出，低质量响应标记为“拒绝”输出，进而生成“文本损失”并提出“文本梯度”，以此迭代改进模型输出，无需更新模型参数。 ...

收录时间：

2025-12-16

打开网站手机查看

TPO – AI优化框架，动态调整推理模型的输出，更符合人类偏好

TPO – AI优化框架，动态调整推理模型的输出，更符合人类偏好

TPO（Test-Time Preference Optimization）是新型的AI优化框架，在推理阶段对语言模型输出进行动态优化，更符合人类偏好。TPO通过将奖励信号转化为文本反馈，将模型生成的优质响应标记为“选择”输出，低质量响应标记为“拒绝”输出，进而生成“文本损失”并提出“文本梯度”，以此迭代改进模型输出，无需更新模型参数。实验表明，经过少量迭代，即使是未经对齐训练的模型也能在多个基准测试中显著提升性能，在AlpacaEval 2的LC指标上从27.8%提升至37.8%。

官网：https://github.com/yafuly/TPO

立即打开官网

数据统计

相关导航

Skywork R1V – 昆仑万维开源的多模态思维链推理模型

Skywork R1V是昆仑万维开源的首款工业界多模态思维链...

Stability AI开源Stable Diffusion 3 Medium文生图模型

6月12日晚间消息，人工智能初创公司Stability AI...

XGrammar – 陈天奇团队推出的LLM结构化生成引擎

XGrammar是由陈天奇团队推出的开源软件库，能为大型语言...

Math24o – SuperCLUE 开源的高中奥林匹克数学竞赛推理测评基准

Math24o 是中文大模型测评基准 SuperCLUE 开...

MeshPad – 草图驱动的AI 3D网格生成与编辑工具

MeshPad 是基于草图输入的交互式艺术化网格生成与编辑工...

MetaStone-L1-7B – 元石智算推出的轻量级推理模型

MetaStone-L1-7B 是 MetaStone 系列...

Excalidraw – 开源的在线白板工具，手绘风格实时协作

Excalidraw是开源的在线白板工具，拥有简洁的手绘风格...

LLaVA-o1 – 北大清华联合多所机构推出开源的视觉语言模型

LLaVA-o1是北京大学、清华大学、鹏城实验室、阿里巴巴达...