# 视觉语言模型

Cambioml
AnyParser通过视觉语言模型提升了文档检索准确性高达2倍。
#视觉语言模型
12

Aya Vision 8B
CohereForAI的Aya Vision 8B是一个8亿参数的多语言视觉语言模型,专为多种视觉语言任务优化,支持OCR、图像描述、视觉推理、总结、问答等功能。
AI模型#视觉语言模型开源
1,344

Siglip2
SigLIP2 是谷歌开发的多语言视觉语言编码器,具有改进的语义理解、定位和密集特征。
AI模型#零样本分类开源
1,212

VLM R1
VLM-R1 是一种基于强化学习的视觉语言模型,专注于视觉理解任务,如指代表达理解(Referring Expression Comprehension, REC)。
AI模型#强化学习开源
1,164

R1 V
R1-V是一个专注于强化视觉语言模型(VLM)泛化能力的项目。
AI模型#视觉语言模型开源
1,164

Ollama OCR For Web
ollama-ocr是一个基于ollama的光学字符识别(OCR)模型,能够从图像中提取文本。
图片编辑#图像识别开源
2,412

Moondream AI
Moondream AI是一个开源的视觉语言模型,具有强大的多模态处理能力。
AI模型#开源
516

Cogagent 9b 20241220
CogAgent-9B-20241220模型基于GLM-4V-9B双语开源VLM基础模型,通过数据收集和优化、多阶段训练以及策略改进,在GUI感知、推理预测准确性、动作空间完整性和任务泛化性方面取得了显著进步。
AI模型#GUI代理开源
276

Vision Parse
vision-parse是一个利用视觉语言模型(Vision LLMs)将PDF文档解析为格式化良好的Markdown内容的工具。
文档#Markdown转换开源
1,200

Cogagent
CogAgent是一个基于视觉语言模型(VLM)的GUI代理,它通过屏幕截图和自然语言实现双语(中文和英文)交云。
AI模型#GUI代理开源
924

Deepseek VL2 Tiny
DeepSeek-VL2是一系列先进的大型混合专家(MoE)视觉语言模型,相较于前代DeepSeek-VL有显著提升。
AI模型#混合专家开源
1,692

POINTS Yi 1.5 9B Chat
POINTS-Yi-1.5-9B-Chat是一个视觉语言模型,它集成了最新的视觉语言模型技术和微信AI提出的新技术。
AI模型#微信AI开源
324

POINTS Qwen 2 5 7B Chat
POINTS-Qwen-2-5-7B-Chat是一个集成了视觉语言模型最新进展和新技巧的模型,由微信AI的研究人员提出。
AI模型#多模态开源
348

POINTS 1 5 Qwen 2 5 7B Chat
WePOINTS 系列最新更新,参数量大性能强,有多项创新技术,在 OpenCompass 排行榜表现优异。
AI模型#双语支持开源
216

Deepseek VL2
DeepSeek-VL2是一系列大型Mixture-of-Experts视觉语言模型,相较于前代DeepSeek-VL有显著提升。
AI模型#多模态理解开源
2,316

Opengvlab InternVL
InternVL是一个AI视觉语言模型,专注于图像分析和描述。
图片生成#图像识别
312

Florence VL
Florence-VL是一个视觉语言模型,通过引入生成式视觉编码器和深度广度融合技术,增强了模型对视觉和语言信息的处理能力。
AI模型#多模态学习开源
528

Qwen2 VL 7B
Qwen2-VL-7B是Qwen-VL模型的最新迭代,代表了近一年的创新成果。
AI模型#多模态开源
636

Qwen2 VL 2B
Qwen2-VL-2B是Qwen-VL模型的最新迭代,代表了近一年的创新成果。
AI模型#多模态开源
840

Paligemma 2
PaliGemma 2是Gemma家族中的第二代视觉语言模型,它在性能上进行了扩展,增加了视觉能力,使得模型能够看到、理解和与视觉输入交互,开启了新的可能性。
AI模型#AI
492

Smolvlm
SmolVLM是一个小型但功能强大的视觉语言模型(VLM),拥有2B参数,以其较小的内存占用和高效性能在同类模型中处于领先地位。
AI模型#多模态AI开源
816

Llava O1
LLaVA-o1是北京大学元组团队开发的一个视觉语言模型,它能够进行自发的、系统的推理,类似于GPT-o1。
#逐步推理开源
396

Aquila VL 2B Llava Qwen
Aquila-VL-2B模型是一个基于LLava-one-vision框架训练的视觉语言模型(VLM),选用Qwen2.5-1.5B-instruct模型作为语言模型(LLM),并使用siglip-so400m-patch14-384作为视
AI模型#多模态开源
432

Promptfix
PromptFix是一个综合框架,能够使扩散模型遵循人类指令执行各种图像处理任务。
图片编辑#扩散模型
912

Omniparser
OmniParser 是微软研究团队开发的一种用于解析用户界面截图的方法,它通过识别可交互图标和理解屏幕截图中各种元素的语义,显著提升了基于视觉的语言模型(如GPT-4V)生成准确界面操作的能力。
AI模型#用户界面解析开源
1,524

Visrag
VisRAG是一个创新的视觉语言模型(VLM)基础的RAG(Retrieval-Augmented Generation)流程。
研究工具#检索增强型生成开源
3,540

Colpali
ColPali 是一种基于视觉语言模型的高效文档检索工具,它通过直接嵌入文档页面图像的方式来简化文档检索流程。
AI搜索引擎#视觉语言模型开源
384

Qwen2 VL
Qwen2-VL是一款基于Qwen2打造的最新一代视觉语言模型,具备多语言支持和强大的视觉理解能力,能够处理不同分辨率和长宽比的图片,理解长视频,并可集成到手机、机器人等设备中进行自动操作。
AI模型#多语言支持开源
1,092

Internlm XComposer 2.5
优质新品
InternLM-XComposer-2.5是一款支持长上下文输入和输出的多功能大型视觉语言模型。
AI模型#长上下文处理开源
1,560

Drivevlm
DriveVLM是一个自动驾驶系统,它利用视觉语言模型(VLMs)来增强场景理解和规划能力。
AI自动驾驶#视觉语言模型开源
816

Paligemma
优质新品
PaliGemma是Google发布的一款先进的视觉语言模型,它结合了图像编码器SigLIP和文本解码器Gemma-2B,能够理解图像和文本,并通过联合训练实现图像和文本的交互理解。
AI图像检测识别#图像理解开源
576

VILA
VILA是一个预训练的视觉语言模型(VLM),它通过大规模的交错图像-文本数据进行预训练,从而实现视频理解和多图像理解能力。
AI模型#视频理解开源
2,328

SPRIGHT
SPRIGHT是一个专注于空间关系的大规模视觉语言数据集和模型。
AI图像生成#空间一致性开源
1,440

Mmstar
MMStar是一个旨在评估大型视觉语言模型多模态能力的基准测试集。
AI模型评测#基准测试开源
528

Minigemini
Mini-Gemini是一个多模态视觉语言模型,支持从2B到34B的系列密集和MoE大型语言模型,同时具备图像理解、推理和生成能力。
AI图像生成#视觉语言模型开源
5,052

Spatialvlm
SpatialVLM是一个由谷歌DeepMind开发的视觉语言模型,能够对空间关系进行理解和推理。
AI模型#空间推理开源
900

Mousi
MouSi是一种多模态视觉语言模型,旨在解决当前大型视觉语言模型(VLMs)面临的挑战。
AI模型#视觉语言模型开源
864

Internlm XComposer2
InternLM-XComposer2是一款领先的视觉语言模型,擅长自由形式文本图像合成与理解。
AI图像生成#文本图像合成开源
4,068

Chexagent
CheXagent是一个基于视觉语言基础模型的胸部X光解读工具。
AI医疗健康#视觉语言模型开源
624

Vary
Vary 是一个用于大规模视觉语言模型的官方代码实现。
AI图像生成#图像理解开源
2,100
精选AI产品推荐

Nocode
中文精选
NoCode 是一款无需编程经验的平台,允许用户通过自然语言描述创意并快速生成应用,旨在降低开发门槛,让更多人能实现他们的创意。
开发平台#应用开发
912

Listenhub
优质新品
ListenHub 是一款轻量级的 AI 播客生成工具,支持中文和英语,基于前沿 AI 技术,能够快速生成用户感兴趣的播客内容。
音频生成#AI
348

Lovart
国外精选
Lovart 是一款革命性的 AI 设计代理,能够将创意提示转化为艺术作品,支持从故事板到品牌视觉的多种设计需求。
AI设计工具#创意工具
1,128

Fastvlm
FastVLM 是一种高效的视觉编码模型,专为视觉语言模型设计。
AI模型#图像处理开源
564

Smart PDFs
国外精选
Smart PDFs 是一个在线工具,利用 AI 技术快速分析 PDF 文档,并生成简明扼要的总结。
文章摘要#AI
984

Keysync
KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。
视频编辑#视频处理开源
480

Anyvoice
AnyVoice是一款领先的AI声音生成器,采用先进的深度学习模型,将文本转换为与人类无法区分的自然语音。
音频生成#文本转语音
26.38k

Liblibai
中文精选
LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。
AI模型#图像生成
344.42k