# 图像理解

VLM R1
VLM-R1 是一种基于强化学习的视觉语言模型,专注于视觉理解任务,如指代表达理解(Referring Expression Comprehension, REC)。
AI模型#强化学习开源
1,164

Kimi Latest
kimi-latest 是月之暗面公司推出的最新 AI 模型,与 Kimi 智能助手同步升级,具备强大的上下文处理能力和自动缓存功能,能够有效降低使用成本。
AI模型#智能助手
1,284

Janus Pro
Janus Pro 是由 DeepSeek 技术驱动的先进 AI 图像生成与理解平台。
图片生成#图像生成
2,544

Videollama3
VideoLLaMA3是由DAMO-NLP-SG团队开发的前沿多模态基础模型,专注于图像和视频理解。
视频生成#视频理解开源
756

Qwen2 VL 2B
Qwen2-VL-2B是Qwen-VL模型的最新迭代,代表了近一年的创新成果。
AI模型#多模态开源
840

Onediffusion
OneDiffusion是一个多功能、大规模的扩散模型,它能够无缝支持双向图像合成和理解,覆盖多种任务。
图片生成#图像合成开源
516

Pixtral Large Instruct 2411
Pixtral-Large-Instruct-2411是由Mistral AI研发的124B参数的大型多模态模型,基于Mistral Large 2构建,展现出前沿级别的图像理解能力。
#大型语言模型开源
612

Pixtral Large
国外精选
Pixtral Large是Mistral AI推出的一款前沿级多模态AI模型,基于Mistral Large 2构建,具备领先的图像理解能力,能够理解文档、图表和自然图像,同时保持Mistral Large 2在文本理解方面的领先地位。
#多模态
732

MM1.5
MM1.5是一系列多模态大型语言模型(MLLMs),旨在增强文本丰富的图像理解、视觉指代表明和接地以及多图像推理的能力。
AI模型#大型语言模型开源
396

Mplug Owl3
mPLUG-Owl3是一个多模态大型语言模型,专注于长图像序列的理解。
AI模型#图像理解开源
624

Phi 3.5 Vision
Phi-3.5-vision是微软开发的轻量级、最新一代的多模态模型,基于包括合成数据和经过筛选的公开可用网站在内的数据集构建,专注于文本和视觉的高质量、密集推理数据。
AI模型#图像理解开源
492

Minicpm V 2.6
MiniCPM-V 2.6是一个基于8亿参数的多模态大型语言模型,它在单图像理解、多图像理解和视频理解等多个领域展现出领先性能。
AI模型#图像理解开源
972

Internlm XComposer 2.5
优质新品
InternLM-XComposer-2.5是一款支持长上下文输入和输出的多功能大型视觉语言模型。
AI模型#长上下文处理开源
1,560

Cogvlm2
CogVLM2是由清华大学团队开发的第二代多模态预训练对话模型,它在多个基准测试中取得了显著的改进,支持8K内容长度和1344*1344的图像分辨率。
AI模型#预训练模型开源
1,272

Paligemma
优质新品
PaliGemma是Google发布的一款先进的视觉语言模型,它结合了图像编码器SigLIP和文本解码器Gemma-2B,能够理解图像和文本,并通过联合训练实现图像和文本的交互理解。
AI图像检测识别#图像理解开源
576

Grok 1.5 Vision Preview
Grok-1.5V是X.AI公司推出的第一代多模态模型。
AI模型#AI
2,400

Minigemini
Mini-Gemini是一个多模态视觉语言模型,支持从2B到34B的系列密集和MoE大型语言模型,同时具备图像理解、推理和生成能力。
AI图像生成#视觉语言模型开源
5,052

零一万物大模型开放平台
中文精选
零一万物大模型开放平台是一个通过API调用获取高品质Yi系列大模型的平台。
API服务#AI模型
7,812

Vary
Vary 是一个用于大规模视觉语言模型的官方代码实现。
AI图像生成#图像理解开源
2,100
精选AI产品推荐

Nocode
中文精选
NoCode 是一款无需编程经验的平台,允许用户通过自然语言描述创意并快速生成应用,旨在降低开发门槛,让更多人能实现他们的创意。
开发平台#应用开发
912

Listenhub
优质新品
ListenHub 是一款轻量级的 AI 播客生成工具,支持中文和英语,基于前沿 AI 技术,能够快速生成用户感兴趣的播客内容。
音频生成#AI
348

Lovart
国外精选
Lovart 是一款革命性的 AI 设计代理,能够将创意提示转化为艺术作品,支持从故事板到品牌视觉的多种设计需求。
AI设计工具#创意工具
1,128

Fastvlm
FastVLM 是一种高效的视觉编码模型,专为视觉语言模型设计。
AI模型#图像处理开源
564

Smart PDFs
国外精选
Smart PDFs 是一个在线工具,利用 AI 技术快速分析 PDF 文档,并生成简明扼要的总结。
文章摘要#AI
984

Keysync
KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。
视频编辑#视频处理开源
480

Anyvoice
AnyVoice是一款领先的AI声音生成器,采用先进的深度学习模型,将文本转换为与人类无法区分的自然语音。
音频生成#文本转语音
26.38k

Liblibai
中文精选
LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。
AI模型#图像生成
344.42k