X-R1 – 基于强化学习的低成本训练框架

1个月前发布 72 00

X-R1是基于强化学习的低成本训练框架,能加速大规模语言模型的后训练(Scaling Post-Training)开发。X-R1用极低的成本训练0.5B(5亿参数)规模的R1-Zero模型,仅需4块3090或4090 GPU,训练时间约1小时,成本低于10美元。X-R1支持更大规模的模型(如1.5B、7B、32B等),提供不同大小的数据集...

收录时间:
2025-12-16
X-R1 – 基于强化学习的低成本训练框架X-R1 – 基于强化学习的低成本训练框架

X-R1是基于强化学习的低成本训练框架,能加速大规模语言模型的后训练(Scaling Post-Training)开发。X-R1用极低的成本训练0.5B(5亿参数)规模的R1-Zero模型,仅需4块3090或4090 GPU,训练时间约1小时,成本低于10美元。X-R1支持更大规模的模型(如1.5B、7B、32B等),提供不同大小的数据集实现快速训练循环。

官网:https://github.com/dhcode-cpp/X-R1


立即打开官网

数据统计

相关导航