
RF DETR
RF-DETR 是一个基于变压器的实时目标检测模型,旨在为边缘设备提供高精度和实时性能。它在 Microsoft COCO 基准测试中超过了 60 AP,具有竞争力的性能和快速的推理速度,适合各种实际应用场景。RF-DETR 旨在解决现实世界中的物体检测问题,适用于需要高效且准确检测的行业,如安防、自动驾驶和智能监控等。
目标检测深度学习
150.1K

Agentic Object Detection
Agentic Object Detection 是一种先进的推理驱动目标检测技术,能够通过文本提示精确识别图像中的目标对象。它无需大量的自定义训练数据,即可实现类似人类精度的检测。该技术利用设计模式对目标的独特属性(如颜色、形状和纹理)进行深度推理,从而在各种场景中实现更智能、更精确的识别。其主要优点包括高精度、无需大量训练数据以及能够处理复杂场景。该技术适用于需要高精度图像识别的行业,如制造业、农业、医疗等领域,能够帮助企业提高生产效率和质量控制水平。产品目前处于试用阶段,用户可以免费试用体验其功能。
AI模型图像识别
72.6K
中文精选

DINO X
DINO-X是一个以物体感知为核心的视觉大模型,具备开集检测、智能问答、人体姿态、物体计数、服装换色等核心能力。它不仅能识别已知目标,还能灵活应对未知类别,凭借先进算法,模型具备出色的适应性和鲁棒性,能够精准应对各种不可预见的挑战,提供针对复杂视觉数据的全方位解决方案。DINO-X的应用场景广泛,包括机器人、农业、零售行业、安防监控、交通管理、制造业、智能家居、物流与仓储、娱乐媒体等,是DeepDataSpace公司在计算机视觉技术领域的旗舰产品。
目标检测
83.4K

D FINE
D-FINE是一个强大的实时目标检测模型,它通过将DETRs中的边界框回归任务重新定义为细粒度分布细化(FDR),并引入全局最优定位自蒸馏(GO-LSD),在不增加额外推理和训练成本的情况下,实现了出色的性能。该模型由中国科学院的研究人员开发,旨在提高目标检测的精度和效率。
模型训练与部署DETR
58.8K

YOLO11
Ultralytics YOLO11是基于之前YOLO系列模型的进一步发展,引入了新特性和改进,以提高性能和灵活性。YOLO11旨在快速、准确、易于使用,非常适合广泛的目标检测、跟踪、实例分割、图像分类和姿态估计任务。
AI图像检测识别机器学习
72.9K

Florence 2 Large
Florence-2-large是由微软开发的先进视觉基础模型,采用基于提示的方法处理广泛的视觉和视觉-语言任务。该模型能够解释简单的文本提示来执行如图像描述、目标检测和分割等任务。它利用包含54亿注释的5.4亿图像的FLD-5B数据集,精通多任务学习。其序列到序列的架构使其在零样本和微调设置中均表现出色,证明是一个有竞争力的视觉基础模型。
AI图像生成多任务学习
61.8K

Yolov10:
YOLOv10是新一代的目标检测模型,它在保持实时性能的同时,实现了高精度的目标检测。该模型通过优化后处理和模型架构,减少了计算冗余,提高了效率和性能。YOLOv10在不同模型规模上都达到了最先进的性能和效率,例如,YOLOv10-S在相似的AP下比RT-DETR-R18快1.8倍,同时参数数量和FLOPs减少了2.8倍。
AI模型实时性能
83.6K

Grounding DINO 1.5 API
Grounding DINO 1.5是由IDEA Research开发,旨在推进开放世界目标检测技术边界的高级模型系列。该系列包含两个模型:Grounding DINO 1.5 Pro和Grounding DINO 1.5 Edge,分别针对广泛的应用场景和边缘计算场景进行了优化。
AI图像检测识别开放世界
91.9K

Yolov9
yolov9是YOLOv9论文的实现,它通过使用可编程梯度信息来学习用户想要学习的内容。这个项目是一个开源的深度学习模型,主要用于目标检测任务,具有高效和准确的优势。
AI图像检测识别深度学习
170.3K

Yolov8
YOLOv8是YOLO系列目标检测模型的最新版本,能够在图像或视频中准确快速地识别和定位多个对象,并实时跟踪它们的移动。相比之前版本,YOLOv8在检测速度和精确度上都有很大提升,同时支持多种额外的计算机视觉任务,如实例分割、姿态估计等。YOLOv8可通过多种格式部署在不同硬件平台上,提供一站式的端到端目标检测解决方案。
AI图像检测识别目标检测
274.3K

PIXTA AI AI/ML Training Data Service
Pixta AI是一家提供大规模数据标注和数据采集解决方案的公司。我们拥有1000多名经验丰富的标注员,超过9000万张图片和1000万个视频。通过我们的服务,可以加速您的AI开发。我们提供的标注和数据采集服务能够满足各种需求,并且可以根据您的项目进行定制化。
数据分析数据采集
54.9K

Lobe
Lobe是一个免费、易于使用的工具,帮助您训练自定义的机器学习模型,并在您的应用程序中使用。Lobe具备一切您需要将机器学习想法实现的功能。只需展示给它您想让它学习的示例,它就会自动训练一个定制的机器学习模型,可在您的应用程序中使用。
模型训练与部署开发编程
58.0K
精选AI产品推荐
中文精选

Nocode
NoCode 是一款无需编程经验的平台,允许用户通过自然语言描述创意并快速生成应用,旨在降低开发门槛,让更多人能实现他们的创意。该平台提供实时预览和一键部署功能,非常适合非技术背景的用户,帮助他们将想法转化为现实。
开发平台应用开发
168.9K
优质新品

Listenhub
ListenHub 是一款轻量级的 AI 播客生成工具,支持中文和英语,基于前沿 AI 技术,能够快速生成用户感兴趣的播客内容。其主要优点包括自然对话和超真实人声效果,使得用户能够随时随地享受高品质的听觉体验。ListenHub 不仅提升了内容生成的速度,还兼容移动端,便于用户在不同场合使用。产品定位为高效的信息获取工具,适合广泛的听众需求。
音频生成AI
120.9K
国外精选

Lovart
Lovart 是一款革命性的 AI 设计代理,能够将创意提示转化为艺术作品,支持从故事板到品牌视觉的多种设计需求。其重要性在于打破传统设计流程,节省时间并提升创意灵感。Lovart 当前处于测试阶段,用户可加入等候名单,随时体验设计的乐趣。
AI设计工具创意工具
138.0K

Fastvlm
FastVLM 是一种高效的视觉编码模型,专为视觉语言模型设计。它通过创新的 FastViTHD 混合视觉编码器,减少了高分辨率图像的编码时间和输出的 token 数量,使得模型在速度和精度上表现出色。FastVLM 的主要定位是为开发者提供强大的视觉语言处理能力,适用于各种应用场景,尤其在需要快速响应的移动设备上表现优异。
AI模型图像处理
102.1K
国外精选

Smart PDFs
Smart PDFs 是一个在线工具,利用 AI 技术快速分析 PDF 文档,并生成简明扼要的总结。它适合需要快速获取文档要点的用户,如学生、研究人员和商务人士。该工具使用 Llama 3.3 模型,支持多种语言,是提高工作效率的理想选择,完全免费使用。
文章摘要AI
69.3K

Keysync
KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。它解决了传统唇同步技术中的时间一致性问题,同时通过巧妙的遮罩策略处理表情泄漏和面部遮挡。KeySync 的优越性体现在其在唇重建和跨同步方面的先进成果,适用于自动配音等实际应用场景。
视频编辑视频处理
92.2K

Anyvoice
AnyVoice是一款领先的AI声音生成器,采用先进的深度学习模型,将文本转换为与人类无法区分的自然语音。其主要优点包括超真实的声音效果、多语言支持、快速生成能力以及语音定制功能。该产品适用于多种场景,如内容创作、教育、商业和娱乐制作等,旨在为用户提供高效、便捷的语音生成解决方案。目前产品提供免费试用,适合不同层次的用户。
音频生成文本转语音
663.8K
中文精选

Liblibai
LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。平台提供海量免费AI创作模型,用户可以搜索使用模型进行图像、文字、音频等创作。平台还支持用户训练自己的AI模型。平台定位于广大创作者用户,致力于创造条件普惠,服务创意产业,让每个人都享有创作的乐趣。
AI模型图像生成
8.0M
智启未来,您的人工智能解决方案智库
简体中文