Light R1 : Light-R1 是一个专注于长链推理（Long COT）的开源项目，通过课程式 SFT、DPO 和 RL 提供从零开始的训练方法。

Light R1

模型训练与部署研究工具 #人工智能 #长链推理 #开源 #强化学习 #数学模型普通产品开源

简介 :

Light-R1 是一个由 Qihoo360 开发的开源项目，旨在通过课程式监督微调（SFT）、直接偏好优化（DPO）和强化学习（RL）训练长链推理模型。该项目通过去污染数据集和高效的训练方法，实现了从零开始的长链推理能力。其主要优点包括开源的训练数据、低成本的训练方式以及在数学推理领域的卓越性能。项目背景基于当前长链推理模型的训练需求，旨在提供一种透明且可复现的训练方法。项目目前免费开源，适合研究机构和开发者使用。

需求人群 :

目标受众包括人工智能研究者、机器学习工程师以及对长链推理模型感兴趣的开发者。该项目适合那些希望在有限资源下训练高性能长链推理模型的研究团队和企业，同时也为开源社区提供了宝贵的参考。

总访问量： 492.1M

占比最多地区： US(19.34%)

本站浏览量： 74.0K

使用场景

使用 Light-R1-7B-DS 模型在 AIME24 测试中达到 59.1% 的准确率，显著优于其他同类模型。

通过课程式 SFT 和 DPO 训练，Light-R1-32B 在 AIME24 上达到 76.6% 的准确率，超越了 DeepSeek-R1-Distill-Qwen-32B。

开发者可以基于开源的训练代码和数据集，快速复现 Light-R1 的训练过程，并进行定制化改进。

产品特色

提供从零开始的长链推理训练方法，无需依赖预训练的长链推理能力

开源完整的训练数据集和代码，便于研究者复现和改进