PRefLexOR – MIT 团队推出的新型自学习AI框架

4个月前发布 139 00

PRefLexOR（Preference-based Recursive Language Modeling for Exploratory Optimization of Reasoning）是MIT团队提出的新型自学习AI框架，结合了偏好优化和强化学习（RL）的概念，模型能通过迭代推理改进自我学习。框架的核心是递归推理算法，模型在训练...

收录时间：

2025-12-16

打开网站手机查看

PRefLexOR – MIT 团队推出的新型自学习AI框架

PRefLexOR – MIT 团队推出的新型自学习AI框架

PRefLexOR（Preference-based Recursive Language Modeling for Exploratory Optimization of Reasoning）是MIT团队提出的新型自学习AI框架，结合了偏好优化和强化学习（RL）的概念，模型能通过迭代推理改进自我学习。框架的核心是递归推理算法，模型在训练和推理阶段会进行多步推理、回顾和改进中间步骤，最终生成更准确的输出。PRefLexOR的基础是优势比偏好优化（ORPO），模型通过优化偏好响应和非偏好响应之间的对数几率来对齐推理路径。集成了直接偏好优化（DPO），通过拒绝采样进一步提升推理质量。

官网：https://github.com/lamm-mit/PRefLexOR

立即打开官网

数据统计

相关导航

MagicMirror – 开源的一键 AI 换脸、换发型和穿搭应用

MagicMirror是开源的 AI换脸、换发型和穿搭应用...

Real-ESRGAN：腾讯推出的开源图像分辨率提升模型

Real-ESRGAN（Real-World Blind S...

DIAMOND – 能模拟虚拟环境的强化学习代理

DIAMOND（DIffusion As a Model O...

AutoConsis – 美团联合复旦大学推出的UI内容一致性AI检测工具

AutoConsis是UI内容一致性智能检测工具，是美团技术...

DeepCoder-14B-Preview – Agentica 联合 Together AI 开源的代码生成模型

DeepCoder-14B-Preview 是 Agenti...

TITAN – 哈佛医学院研究推出的多模态全切片病理基础模型

TITAN是哈佛医学院研究团队开发的多模态全切片病理基础模型...

有道小P – 网易有道推出的AI全科学习助手

有道小P是网易有道推出的AI全科学习助手，专为K12阶段的学...

xAR – 字节联合霍普金斯大学推出的自回归视觉生成框架

xAR 是字节跳动和约翰·霍普金斯大学联合提出的新型自回归视...