# 图像识别

Google CameraTrapAI
Google CameraTrapAI 是一个用于野生动物图像分类的 AI 模型集合。
研究工具#野生动物开源
768

Paligemma 2 Mix
国外精选
PaliGemma 2 mix 是 Google 推出的升级版视觉语言模型,属于 Gemma 家族。
AI模型#图像识别
804

Omniparser V2.0
OmniParser 是微软开发的一种先进的图像解析技术,旨在将不规则的屏幕截图转换为结构化的元素列表,包括可交互区域的位置和图标的功能描述。
AI设计工具#图像识别开源
2,856

Agentic Object Detection
Agentic Object Detection 是一种先进的推理驱动目标检测技术,能够通过文本提示精确识别图像中的目标对象。
AI模型#图像识别
1,116

Hotdog
该产品利用图像识别技术,通过上传图片来判断是否为热狗。
图片生成#图像识别
648

Qwen2.5 VL
中文精选
Qwen2.5-VL 是 Qwen 团队推出的最新旗舰视觉语言模型,是视觉语言模型领域的重要进步。
AI模型#图像识别开源
3,564

朱雀大模型AI生成图像检测
中文精选
朱雀大模型检测是腾讯推出的一款AI检测工具,主要功能是检测图片是否由AI模型生成。
内容检测#图像识别
9,864

Ollama OCR For Web
ollama-ocr是一个基于ollama的光学字符识别(OCR)模型,能够从图像中提取文本。
图片编辑#图像识别开源
2,412

Moonshot V1 Vision Preview
中文精选
Kimi 视觉模型是 Moonshot AI 开放平台提供的先进图像理解技术。
图片生成#视觉分析
1,068

Gaze Demo
Gaze Demo是一个基于Hugging Face Spaces平台的项目,由用户moondream创建。
AI信息平台#图像识别开源
636

Kachika
KaChiKa是一款旨在通过生活场景帮助用户学习日语的应用程序。
学习教育#语言学习
1,776

Anyparser Pro
AnyParser Pro 是由 CambioML 开发的一款创新的文档解析工具,它利用大型语言模型(LLM)技术,能够快速准确地从 PDF、PPT 和图像文件中提取出完整的文本内容。
文档#大型语言模型
1,080

Valley Eagle 7B
Valley-Eagle-7B是由字节跳动开发的多模态大型模型,旨在处理涉及文本、图像和视频数据的多种任务。
AI模型#大型模型开源
864

Ollama OCR
Ollama-OCR是一个使用最新视觉语言模型的OCR工具,通过Ollama提供技术支持,能够从图像中提取文本。
OCR工具#图像识别开源
2,208

Deepseek VL2 Tiny
DeepSeek-VL2是一系列先进的大型混合专家(MoE)视觉语言模型,相较于前代DeepSeek-VL有显著提升。
AI模型#混合专家开源
1,692

Megrez 3B Omni
Megrez-3B-Omni是由无问芯穹研发的端侧全模态理解模型,基于大语言模型Megrez-3B-Instruct扩展,具备图片、文本、音频三种模态数据的理解分析能力。
AI模型#图像识别开源
552

Kimi视觉思考模型k1
中文精选
Kimi视觉思考模型k1是基于强化学习技术打造的AI模型,原生支持端到端图像理解和思维链技术,并将能力扩展到数学之外的更多基础科学领域。
AI模型#视觉思考
3,540

Internvl2 5 1B
InternVL 2.5是一系列先进的多模态大型语言模型(MLLM),它在InternVL 2.0的基础上,通过引入显著的训练和测试策略增强以及数据质量提升,保持了其核心模型架构。
AI模型#大型语言模型开源
756

Internvit 6B 448px V2 5
InternViT-6B-448px-V2_5是一个基于InternViT-6B-448px-V1-5的视觉模型,通过使用ViT增量学习与NTP损失(阶段1.5),提升了视觉编码器提取视觉特征的能力,尤其是在大规模网络数据集中代表性不足的领
AI模型#特征提取开源
864

Internvl2 5 38B
InternVL 2.5是OpenGVLab推出的多模态大型语言模型系列,它在InternVL 2.0的基础上进行了显著的训练和测试策略增强,以及数据质量提升。
AI模型#大型语言模型开源
1,128

Opengvlab InternVL
InternVL是一个AI视觉语言模型,专注于图像分析和描述。
图片生成#图像识别
312

Florence VL
Florence-VL是一个视觉语言模型,通过引入生成式视觉编码器和深度广度融合技术,增强了模型对视觉和语言信息的处理能力。
AI模型#多模态学习开源
528

Paligemma 2
PaliGemma 2是Gemma家族中的第二代视觉语言模型,它在性能上进行了扩展,增加了视觉能力,使得模型能够看到、理解和与视觉输入交互,开启了新的可能性。
AI模型#AI
492

They See Your Photos
优质新品
They See Your Photos是一个利用Google Vision API来分析和展示单张照片背后故事的网站。
安全#图像识别
600

Picmenu
优质新品
PicMenu是一个利用人工智能技术的网站,它允许用户上传菜单图片,然后通过AI技术将整个菜单的图片分解成单个菜品的图片,帮助用户更直观地看到每个菜品的样子,从而做出更好的点餐决策。
#图像识别
516

Llamaocr
优质新品
LlamaOCR.com是一个基于OCR技术的在线服务,它能够将上传的图像文件转换成结构化的Markdown格式文档。
#文档转换
1,068

Turbolens
TurboLens是一个集OCR、计算机视觉和生成式AI于一体的全功能平台,它能够自动化地从非结构化图像中快速生成洞见,简化工作流程。
#计算机视觉
564

Voyage Multimodal 3
Voyage AI推出的voyage-multimodal-3是一款多模态嵌入模型,它能够将文本和图像(包括PDF、幻灯片、表格等的截图)进行向量化处理,并捕捉关键视觉特征,从而提高文档检索的准确性。
#语义搜索
720

Aquila VL 2B Llava Qwen
Aquila-VL-2B模型是一个基于LLava-one-vision框架训练的视觉语言模型(VLM),选用Qwen2.5-1.5B-instruct模型作为语言模型(LLM),并使用siglip-so400m-patch14-384作为视
AI模型#多模态开源
432

Electronic Component Sorter
Vanguard-s/Electronic-Component-Sorter是一个利用机器学习和人工智能自动化识别和分类电子元件的项目。
AI模型#机器学习开源
636

Image To Excel
优质新品
Image to excel是一款利用人工智能技术,能够识别图片中的表格和文本,并将其转换为可编辑的Excel文件的工具。
数据分析#图像识别
2,328

Chance AI
国外精选
Chance AI是一款AI驱动的视觉搜索引擎,旨在通过先进的视觉智能技术,让用户能够通过视觉内容与世界互动。
AI搜索#视觉搜索
1,092

Torii Image Translator
优质新品
Torii Image Translator是一款浏览器插件,能够让用户在浏览网页时,直接翻译网页上的图片中的文字。
翻译#浏览器插件
1,908

GPTS4O.SO
GPT-4o是OpenAI推出的先进多模态AI平台,它在GPT-4的基础上进一步扩展,实现了真正的多模态方法,涵盖文本、图像和音频。
AI模型#多模态
660

Doclayout YOLO
DocLayout-YOLO是一个用于文档布局分析的深度学习模型,它通过多样化的合成数据和全局到局部自适应感知来增强文档布局分析的准确性和处理速度。
研究工具#深度学习开源
1,140

Image Describer
Image Describer图像描述生成器是一款利用人工智能技术,通过上传图像并根据用户需求输出图像描述的工具。
AI图像检测识别#文本转语音
1,104

派欧算力云大模型 API
优质新品
派欧算力云大模型 API 提供易于集成的各模态 API 服务,包括大语言模型、图像、音频、视频等,旨在帮助用户轻松构建专属的 AIGC 应用。
AI API工具和服务#API
924

Viewly
Viewly是一款强大的AI图片识别应用,它能够识别图片中的内容,并通过AI技术进行作诗和翻译成多国语言。
AI图像检测识别#图像识别
528

YOLO11
Ultralytics YOLO11是基于之前YOLO系列模型的进一步发展,引入了新特性和改进,以提高性能和灵活性。
AI图像检测识别#机器学习
1,224

Molmo
国外精选
Molmo是一个开放的、最先进的多模态AI模型家族,旨在通过学习指向其感知的内容,实现与物理和虚拟世界的丰富互动,为下一代应用程序提供行动和交互的能力。
AI模型#AI
912
精选AI产品推荐

Nocode
中文精选
NoCode 是一款无需编程经验的平台,允许用户通过自然语言描述创意并快速生成应用,旨在降低开发门槛,让更多人能实现他们的创意。
开发平台#应用开发
912

Listenhub
优质新品
ListenHub 是一款轻量级的 AI 播客生成工具,支持中文和英语,基于前沿 AI 技术,能够快速生成用户感兴趣的播客内容。
音频生成#AI
348

Lovart
国外精选
Lovart 是一款革命性的 AI 设计代理,能够将创意提示转化为艺术作品,支持从故事板到品牌视觉的多种设计需求。
AI设计工具#创意工具
1,128

Fastvlm
FastVLM 是一种高效的视觉编码模型,专为视觉语言模型设计。
AI模型#图像处理开源
564

Smart PDFs
国外精选
Smart PDFs 是一个在线工具,利用 AI 技术快速分析 PDF 文档,并生成简明扼要的总结。
文章摘要#AI
984

Keysync
KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。
视频编辑#视频处理开源
480

Anyvoice
AnyVoice是一款领先的AI声音生成器,采用先进的深度学习模型,将文本转换为与人类无法区分的自然语音。
音频生成#文本转语音
26.38k

Liblibai
中文精选
LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。
AI模型#图像生成
344.42k