# 强化学习

Zerosearch
ZeroSearch 是一种新颖的强化学习框架,旨在激励大型语言模型(LLMs)的搜索能力,而无需与实际搜索引擎进行交互。
AI模型#搜索能力开源
1,728

Search R1
Search-R1 是一个强化学习框架,旨在训练能够进行推理和调用搜索引擎的语言模型(LLMs)。
模型训练与部署#自然语言处理开源
1,080

D1
该模型通过强化学习和高质量推理轨迹的掩蔽自监督微调,实现了对扩散大语言模型的推理能力的提升。
写作助手#强化学习开源
792

混元T1
中文精选
混元T1 是腾讯推出的超大规模推理模型,基于强化学习技术,通过大量后训练显著提升推理能力。
AI模型#人工智能
2,460

Deepcoder
DeepCoder-14B-Preview 是一个基于强化学习的代码推理大型语言模型,能够处理长上下文,具有 60.6% 的通过率,适用于编程任务和自动化代码生成。
代码助手#AI开源
576

Light R1 14B DS
Light-R1-14B-DS 是由北京奇虎科技有限公司开发的开源数学模型。
AI模型#数学模型开源
1,680

Light R1
Light-R1 是一个由 Qihoo360 开发的开源项目,旨在通过课程式监督微调(SFT)、直接偏好优化(DPO)和强化学习(RL)训练长链推理模型。
模型训练与部署#长链推理开源
1,260

R1 Omni
R1-Omni 是一个创新的多模态情绪识别模型,通过强化学习提升模型的推理能力和泛化能力。
情感陪伴#情绪识别开源
1,428

Steiner 32b Preview
Steiner 是由 Yichao 'Peak' Ji 开发的推理模型系列,专注于通过强化学习在合成数据上训练,能够在推理时探索多种路径并自主验证或回溯。
AI模型#强化学习开源
1,416

Notagen
NotaGen 是一款创新的符号音乐生成模型,通过预训练、微调和强化学习三个阶段提升音乐生成质量。
音乐生成#大语言模型开源
2,940

SWE RL
SWE-RL 是由 Facebook Research 提出的一种基于强化学习的大型语言模型推理技术,旨在利用开源软件演变数据提升模型在软件工程任务中的表现。
代码助手#大型语言模型开源
576

Mlgym
MLGym是由Meta的GenAI团队和UCSB NLP团队开发的一个开源框架和基准,用于训练和评估AI研究代理。
模型训练与部署#强化学习开源
660

VLM R1
VLM-R1 是一种基于强化学习的视觉语言模型,专注于视觉理解任务,如指代表达理解(Referring Expression Comprehension, REC)。
AI模型#强化学习开源
1,164

Novasky
NovaSky 是一个专注于提升代码生成和推理模型性能的人工智能技术平台。
开发与工具#代码生成开源
456

Alphamaze
AlphaMaze 是一款专为解决视觉推理任务而设计的解码器语言模型。
AI模型#视觉推理
576

Homietele
HOMIE 是一种创新的人形机器人遥操作解决方案,旨在通过强化学习和低成本的外骨骼硬件系统,实现精准的行走与操作任务。
机器人#遥操作开源
552

Deepscaler 1.5B Preview
DeepScaleR-1.5B-Preview 是一个经过强化学习优化的大型语言模型,专注于提升数学问题解决能力。
学习教育#强化学习开源
1,200

R1 V
R1-V是一个专注于强化视觉语言模型(VLM)泛化能力的项目。
AI模型#视觉语言模型开源
1,164

Tülu 3 405B
优质新品
Tülu 3 405B 是由 Allen Institute for AI 开发的开源语言模型,具有 4050 亿参数。
AI模型#自然语言处理
1,680

CUA
Computer-Using Agent (CUA) 是 OpenAI 开发的一种先进的人工智能模型,结合了 GPT-4o 的视觉能力和通过强化学习的高级推理能力。
个人助理#多模态
1,644

Deepseek R1 Distill Qwen 1.5B
DeepSeek-R1-Distill-Qwen-1.5B 是由 DeepSeek 团队开发的开源语言模型,基于 Qwen2.5 系列进行蒸馏优化。
AI模型#强化学习开源
8,892

Deepseek R1 Distill Qwen 7B
DeepSeek-R1-Distill-Qwen-7B 是一个经过强化学习优化的推理模型,基于 Qwen-7B 进行了蒸馏优化。
模型训练与部署#推理模型开源
5,004

Deepseek R1 Distill Llama 8B
DeepSeek-R1-Distill-Llama-8B 是 DeepSeek 团队开发的高性能语言模型,基于 Llama 架构并经过强化学习和蒸馏优化。
AI模型#推理开源
5,424

Deepseek R1 Distill Qwen 14B
DeepSeek-R1-Distill-Qwen-14B 是 DeepSeek 团队开发的一款基于 Qwen-14B 的蒸馏模型,专注于推理和文本生成任务。
AI模型#文本生成开源
11.81k

Deepseek R1 Distill Qwen 32B
DeepSeek-R1-Distill-Qwen-32B 是由 DeepSeek 团队开发的高性能语言模型,基于 Qwen-2.5 系列进行蒸馏优化。
模型训练与部署#强化学习开源
4,524

Deepseek R1 Distill Llama 70B
DeepSeek-R1-Distill-Llama-70B 是由 DeepSeek 团队开发的一款大型语言模型,基于 Llama-70B 架构并通过强化学习进行优化。
AI模型#强化学习开源
2,376

Pasa
PaSa 是由字节跳动开发的一种先进学术论文搜索代理,基于大语言模型(LLM)技术,能够自主调用搜索工具、阅读论文并筛选相关参考文献,以获取复杂学术查询的全面准确结果。
AI搜索#大语言模型开源
2,040

Kimi K1.5
中文精选
Kimi k1.5 是由 MoonshotAI 开发的多模态语言模型,通过强化学习和长上下文扩展技术,显著提升了模型在复杂推理任务中的表现。
模型训练与部署#多模态开源
10.75k

Deepseek R1 Zero
中文精选
DeepSeek-R1-Zero 是由 DeepSeek 团队开发的推理模型,专注于通过强化学习提升模型的推理能力。
AI模型#推理模型开源
2,604

Deepseek R1
中文精选
DeepSeek-R1 是 DeepSeek 团队推出的第一代推理模型,通过大规模强化学习训练,无需监督微调即可展现出卓越的推理能力。
AI模型#推理模型开源
19.72k

Rlloggingboard
RLLoggingBoard 是一个专注于强化学习人类反馈(RLHF)训练过程可视化的工具。
模型训练与部署#可视化开源
504

Self Adaptive Llms
SakanaAI/self-adaptive-llms是一个名为Transformer²的自适应框架,旨在解决传统微调方法计算密集且处理多样化任务能力静态的挑战。
AI模型#大型语言模型开源
552

Eurus 2 7B PRIME
PRIME-RL/Eurus-2-7B-PRIME是一个基于PRIME方法训练的7B参数的语言模型,旨在通过在线强化学习提升语言模型的推理能力。
模型训练与部署#推理能力开源
600

Eurusprm Stage2
EurusPRM-Stage2是一个先进的强化学习模型,通过隐式过程奖励来优化生成模型的推理过程。
模型训练与部署#隐式过程奖励开源
384

Eurusprm Stage1
EurusPRM-Stage1是PRIME-RL项目的一部分,旨在通过隐式过程奖励来增强生成模型的推理能力。
AI模型#隐式过程奖励开源
300

PRIME RL
PRIME是一个开源的在线强化学习解决方案,通过隐式过程奖励来增强语言模型的推理能力。
模型训练与部署#推理能力开源
684

GLM Zero Preview
中文精选
GLM-Zero-Preview是智谱首个基于扩展强化学习技术训练的推理模型,专注于增强AI推理能力,擅长处理数理逻辑、代码和需要深度推理的复杂问题。
AI模型#强化学习
864

Huatuogpt O1
HuatuoGPT-o1是一个专为医疗复杂推理设计的大语言模型,能够识别错误、探索替代策略并完善答案。
医疗#复杂推理开源
744

Mars
优质新品
MarS是一个金融市场模拟引擎,由生成式基础模型(LMM)驱动,能够根据历史金融市场数据动态生成订单序列,以响应各种条件,包括用户注入的交互式订单、模糊的目标场景描述以及当前/最近的市场数据。
金融#模拟开源
912

Unitree RL GYM
Unitree RL GYM是一个基于Unitree机器人的强化学习平台,支持Unitree Go2、H1、H1_2、G1等型号。
模型训练与部署#强化学习开源
1,248
精选AI产品推荐

Nocode
中文精选
NoCode 是一款无需编程经验的平台,允许用户通过自然语言描述创意并快速生成应用,旨在降低开发门槛,让更多人能实现他们的创意。
开发平台#应用开发
912

Listenhub
优质新品
ListenHub 是一款轻量级的 AI 播客生成工具,支持中文和英语,基于前沿 AI 技术,能够快速生成用户感兴趣的播客内容。
音频生成#AI
348

Lovart
国外精选
Lovart 是一款革命性的 AI 设计代理,能够将创意提示转化为艺术作品,支持从故事板到品牌视觉的多种设计需求。
AI设计工具#创意工具
1,128

Fastvlm
FastVLM 是一种高效的视觉编码模型,专为视觉语言模型设计。
AI模型#图像处理开源
564

Smart PDFs
国外精选
Smart PDFs 是一个在线工具,利用 AI 技术快速分析 PDF 文档,并生成简明扼要的总结。
文章摘要#AI
984

Keysync
KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。
视频编辑#视频处理开源
480

Anyvoice
AnyVoice是一款领先的AI声音生成器,采用先进的深度学习模型,将文本转换为与人类无法区分的自然语音。
音频生成#文本转语音
26.38k

Liblibai
中文精选
LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。
AI模型#图像生成
344.42k