X-R1 – 基于强化学习的低成本训练框架

4个月前发布 193 00

X-R1是基于强化学习的低成本训练框架，能加速大规模语言模型的后训练（Scaling Post-Training）开发。X-R1用极低的成本训练0.5B（5亿参数）规模的R1-Zero模型，仅需4块3090或4090 GPU，训练时间约1小时，成本低于10美元。X-R1支持更大规模的模型（如1.5B、7B、32B等），提供不同大小的数据集...

收录时间：

2025-12-16

打开网站手机查看

X-R1 – 基于强化学习的低成本训练框架

X-R1 – 基于强化学习的低成本训练框架

X-R1是基于强化学习的低成本训练框架，能加速大规模语言模型的后训练（Scaling Post-Training）开发。X-R1用极低的成本训练0.5B（5亿参数）规模的R1-Zero模型，仅需4块3090或4090 GPU，训练时间约1小时，成本低于10美元。X-R1支持更大规模的模型（如1.5B、7B、32B等），提供不同大小的数据集实现快速训练循环。

官网：https://github.com/dhcode-cpp/X-R1

立即打开官网

数据统计

相关导航

TITAN – 哈佛医学院研究推出的多模态全切片病理基础模型

TITAN是哈佛医学院研究团队开发的多模态全切片病理基础模型...

Custom-SVG – Adobe联合香港城市大学推出的SVG定制生成框架

Custom-SVG 是Adobe和香港城市大学推出的两阶段...

DualPipe – DeepSeek 开源的双向流水线并行技术

DualPipe 是 DeepSeek 开源的创新的双向流水...

T2I-R1 – 港中文联合上海AI Lab推出文生图模型

T2I-R1 是香港中文大学和上海AI Lab联合推出的新型...

RF-DETR – Roboflow推出的实时目标检测模型

RF-DETR是Roboflow推出的实时目标检测模型。RF...

Vanna – 开源AI检索生成框架，自动生成精确的SQL查询

Vanna是开源的Python RAG（Retrieval...

KaChiKa – AI日语学习应用，自动识别图片内容生成相关日语单词和句子

KaChiKa是创新的AI日语学习应用，专为希望通过生活场景...

Teacher2Task – 谷歌推出的多教师学习框架

Teacher2Task是谷歌团队推出的多教师学习框架，引入...