简介
VLM-R1 是一种基于强化学习的视觉语言模型,专注于视觉理解任务,如指代表达理解(Referring Expression Comprehension, REC)。该模型通过结合 R1(Reinforcement Learning)和 SFT(Supervised Fine-Tuning)方法,展示了在领域内和领域外数据上的出色性能。VLM-R1 的主要优点包括其稳定性和泛化能力,使其能够在多种视觉语言任务中表现出色。该模型基于 Qwen2.5-VL 构建,利用了先进的深度学习技术,如闪存注意力机制(Flash Attention 2),以提高计算效率。VLM-R1 旨在为视觉语言任务提供一种高效且可靠的解决方案,适用于需要精确视觉理解的应用场景。
截图

产品特色
支持指代表达理解任务,能够准确识别图像中的特定对象。
提供 GRPO(Guided Reinforcement Policy Optimization)训练方法,提升模型的泛化能力。
兼容多种数据格式,支持自定义数据加载和处理。
提供详细的训练和评估脚本,方便用户快速上手和扩展。
支持多种硬件加速选项,如 BF16 和 Flash Attention 2,优化训练效率。
使用教程
1. 克隆 VLM-R1 仓库并安装依赖:`git clone https://github.com/om-ai-lab/VLM-R1.git` 和运行 `bash setup.sh`。
2. 准备数据集,下载 COCO 图像和指代表达理解任务的标注文件。
3. 配置数据路径和模型参数,编辑 `rec.yaml` 文件以指定数据集路径。
4. 使用 GRPO 方法训练模型:运行 `bash src/open-r1-multimodal/run_grpo_rec.sh`。
5. 评估模型性能:运行 `python test_rec_r1.py` 进行模型评估。
流量来源
直接访问 | 51.61% | 外链引荐 | 33.46% | 邮件 | 0.04% |
自然搜索 | 12.58% | 社交媒体 | 2.19% | 展示广告 | 0.11% |
最新流量情况
月访问量
4.92m
平均访问时长
393.01
每次访问页数
6.11
跳出率
36.20%
总流量趋势图
地理流量分布情况
美国
19.34%
中国
13.25%
印度
9.32%
俄罗斯
4.28%
德国
3.63%
地理流量分布全球图
同类开源产品

Dmind
DMind-1 和 DMind-1-mini 是针对 Web3 任务的领域专用大型语言模型,提供比其他通用模型更高的领域准确性、指令跟随能力及专业理解。
AI模型#人工智能

Faceage AI
FaceAge AI是一款基于人工智能的面部年龄检测工具,通过上传照片,快速准确地分析面部各个部位的年龄信息。
图片编辑#面部识别

Portal By 20Vision
Portal by 20Vision是一个免费AI平台,可在几秒钟内转换图像和视频,无需注册。
图片编辑#AI设计工具

Picsman
Picsman 是一款 AI 驱动的在线照片编辑器,专为电商和个人用户设计,提供背景移除、对象去除、照片增强等功能,旨在提高图片处理的效率和质量。
图片编辑#照片编辑

Fastvlm
FastVLM 是一种高效的视觉编码模型,专为视觉语言模型设计。
AI模型#图像处理

Poify AI
中文精选
Poify 是一款基于 AI 技术的在线照片编辑工具,旨在简化用户的编辑流程。
图片编辑#图像编辑

Zerosearch
ZeroSearch 是一种新颖的强化学习框架,旨在激励大型语言模型(LLMs)的搜索能力,而无需与实际搜索引擎进行交互。
AI模型#搜索能力

Notellm
NoteLLM 是一款专注于用户生成内容的可检索大型语言模型,旨在提升推荐系统的性能。
AI模型#多模态处理

Pixelfox AI 图片编辑器
中文精选
Pixelfox AI 图片编辑器是一款先进的在线工具,利用人工智能技术简化图片编辑过程。
图片编辑#图像编辑
替代品

Fastvlm
FastVLM 是一种高效的视觉编码模型,专为视觉语言模型设计。
AI模型#图像处理

Zerosearch
ZeroSearch 是一种新颖的强化学习框架,旨在激励大型语言模型(LLMs)的搜索能力,而无需与实际搜索引擎进行交互。
AI模型#搜索能力

Notellm
NoteLLM 是一款专注于用户生成内容的可检索大型语言模型,旨在提升推荐系统的性能。
AI模型#多模态处理

Deepseek Prover V2 671B
DeepSeek-Prover-V2-671B 是一个先进的人工智能模型,旨在提供强大的推理能力。
AI模型#开源

Xiaomi MiMo
优质新品
Xiaomi MiMo是小米公司开源的首个推理大模型,专为推理任务设计,具备卓越的数学推理和代码生成能力。
AI模型

Step1x Edit
国外精选
Step1X-Edit 是一种实用的通用图像编辑框架,利用 MLLMs 的图像理解能力解析编辑指令,生成编辑令牌,并通过 DiT 网络解码为图像。
图片编辑#机器学习

Liquid
Liquid 是一个自回归生成模型,通过将图像分解为离散代码并与文本标记共享特征空间,促进视觉理解和文本生成的无缝集成。
AI模型#生成模型

Skywork OR1
优质新品
Skywork-OR1是由昆仑万维天工团队开发的高性能数学代码推理模型。
AI模型#机器学习

Kimi VL
中文精选
Kimi-VL 是一个先进的混合专家视觉语言模型,专为多模态推理、长上下文理解及强大代理能力而设计。
AI模型#推理
精选AI产品推荐

Nocode
中文精选
NoCode 是一款无需编程经验的平台,允许用户通过自然语言描述创意并快速生成应用,旨在降低开发门槛,让更多人能实现他们的创意。
开发平台#应用开发
912

Listenhub
优质新品
ListenHub 是一款轻量级的 AI 播客生成工具,支持中文和英语,基于前沿 AI 技术,能够快速生成用户感兴趣的播客内容。
音频生成#AI
348

Lovart
国外精选
Lovart 是一款革命性的 AI 设计代理,能够将创意提示转化为艺术作品,支持从故事板到品牌视觉的多种设计需求。
AI设计工具#创意工具
1,128

Fastvlm
FastVLM 是一种高效的视觉编码模型,专为视觉语言模型设计。
AI模型#图像处理开源
564

Smart PDFs
国外精选
Smart PDFs 是一个在线工具,利用 AI 技术快速分析 PDF 文档,并生成简明扼要的总结。
文章摘要#AI
984

Keysync
KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。
视频编辑#视频处理开源
480

Anyvoice
AnyVoice是一款领先的AI声音生成器,采用先进的深度学习模型,将文本转换为与人类无法区分的自然语音。
音频生成#文本转语音
26.38k

Liblibai
中文精选
LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。
AI模型#图像生成
344.42k