# 图像理解
图像理解
VLM R1
VLM-R1 是一种基于强化学习的视觉语言模型,专注于视觉理解任务,如指代表达理解(Referring Expression Comprehension, REC)。
AI模型#强化学习开源
1,164
Kimi Latest
kimi-latest 是月之暗面公司推出的最新 AI 模型,与 Kimi 智能助手同步升级,具备强大的上下文处理能力和自动缓存功能,能够有效降低使用成本。
AI模型#智能助手
1,284
Janus Pro
Janus Pro 是由 DeepSeek 技术驱动的先进 AI 图像生成与理解平台。
图片生成#图像生成
2,544
Videollama3
VideoLLaMA3是由DAMO-NLP-SG团队开发的前沿多模态基础模型,专注于图像和视频理解。
视频生成#视频理解开源
756
Qwen2 VL 2B
Qwen2-VL-2B是Qwen-VL模型的最新迭代,代表了近一年的创新成果。
AI模型#多模态开源
840
Onediffusion
OneDiffusion是一个多功能、大规模的扩散模型,它能够无缝支持双向图像合成和理解,覆盖多种任务。
图片生成#图像合成开源
516
Pixtral Large Instruct 2411
Pixtral-Large-Instruct-2411是由Mistral AI研发的124B参数的大型多模态模型,基于Mistral Large 2构建,展现出前沿级别的图像理解能力。
#大型语言模型开源
612
Pixtral Large
国外精选
Pixtral Large是Mistral AI推出的一款前沿级多模态AI模型,基于Mistral Large 2构建,具备领先的图像理解能力,能够理解文档、图表和自然图像,同时保持Mistral Large 2在文本理解方面的领先地位。
#多模态
732
MM1.5
MM1.5是一系列多模态大型语言模型(MLLMs),旨在增强文本丰富的图像理解、视觉指代表明和接地以及多图像推理的能力。
AI模型#大型语言模型开源
396
Mplug Owl3
mPLUG-Owl3是一个多模态大型语言模型,专注于长图像序列的理解。
AI模型#图像理解开源
624
Phi 3.5 Vision
Phi-3.5-vision是微软开发的轻量级、最新一代的多模态模型,基于包括合成数据和经过筛选的公开可用网站在内的数据集构建,专注于文本和视觉的高质量、密集推理数据。
AI模型#图像理解开源
492
Minicpm V 2.6
MiniCPM-V 2.6是一个基于8亿参数的多模态大型语言模型,它在单图像理解、多图像理解和视频理解等多个领域展现出领先性能。
AI模型#图像理解开源
972
Internlm XComposer 2.5
优质新品
InternLM-XComposer-2.5是一款支持长上下文输入和输出的多功能大型视觉语言模型。
AI模型#长上下文处理开源
1,560
Cogvlm2
CogVLM2是由清华大学团队开发的第二代多模态预训练对话模型,它在多个基准测试中取得了显著的改进,支持8K内容长度和1344*1344的图像分辨率。
AI模型#预训练模型开源
1,272
Paligemma
优质新品
PaliGemma是Google发布的一款先进的视觉语言模型,它结合了图像编码器SigLIP和文本解码器Gemma-2B,能够理解图像和文本,并通过联合训练实现图像和文本的交互理解。
AI图像检测识别#图像理解开源
576
Grok 1.5 Vision Preview
Grok-1.5V是X.AI公司推出的第一代多模态模型。
AI模型#AI
2,400
Minigemini
Mini-Gemini是一个多模态视觉语言模型,支持从2B到34B的系列密集和MoE大型语言模型,同时具备图像理解、推理和生成能力。
AI图像生成#视觉语言模型开源
5,052
零一万物大模型开放平台
中文精选
零一万物大模型开放平台是一个通过API调用获取高品质Yi系列大模型的平台。
API服务#AI模型
7,812
Vary
Vary 是一个用于大规模视觉语言模型的官方代码实现。
AI图像生成#图像理解开源
2,100