Florence 2 Large Ft : 先进的视觉基础模型，支持多种视觉和视觉-语言任务。

Florence 2 Large Ft

Florence 2 Large Ft

AI图像生成 AI模型 #图像处理 #自然语言处理 #机器学习 #多任务学习普通产品开源

简介 :

Florence-2-large-ft是由微软开发的高级视觉基础模型，使用基于提示的方法来处理广泛的视觉和视觉-语言任务。该模型能够通过简单的文本提示执行诸如图像描述、目标检测和分割等任务。它利用FLD-5B数据集，包含54亿个注释，覆盖1.26亿张图像，实现多任务学习。模型的序列到序列架构使其在零样本和微调设置中均表现出色，证明其为有竞争力的视觉基础模型。

需求人群 :

目标受众为需要进行图像处理和分析的研究人员和开发者，包括但不限于计算机视觉、自然语言处理和机器学习领域的专业人士。该产品适合他们因为它提供了一个强大的工具来处理复杂的视觉任务，并且能够通过简单的文本提示来实现任务的自动化。

总访问量： 29.7M

占比最多地区： US(17.94%)

本站浏览量： 77.8K

使用场景

研究人员使用Florence-2-large-ft模型自动生成图像描述，以辅助视觉障碍人士理解图像内容。

开发者利用该模型进行目标检测，以提高自动驾驶车辆的感知能力。

企业使用该技术进行产品图像的自动标注和分类，以优化电子商务平台的搜索和推荐系统。

产品特色

图像描述：生成图像的文本描述。

目标检测：识别并定位图像中的目标。

分割：将图像分割成不同的区域或对象。

区域提议：生成图像中可能包含目标的区域。

OCR：识别图像中的文字。

区域OCR：识别特定区域中的文字。

使用教程

1. 安装必要的库，如transformers和PIL。

2. 使用AutoModelForCausalLM和AutoProcessor从Hugging Face模型库中加载Florence-2-large-ft模型和处理器。

3. 准备输入数据，包括文本提示和图像。

4. 通过处理器将文本和图像转换为模型可接受的格式。

5. 使用模型的generate方法生成输出。

6. 使用处理器的batch_decode方法将生成的ID转换回文本。

7. 根据任务类型，使用后处理函数解析生成的文本。

8. 输出最终结果，如图像描述或目标检测的边界框和标签。

精选AI产品推荐

Deepmind Gemini

Gemini是谷歌DeepMind推出的新一代人工智能系统。它能够进行多模态推理,支持文本、图像、视频、音频和代码之间的无缝交互。Gemini在语言理解、推理、数学、编程等多个领域都超越了之前的状态,成为迄今为止最强大的AI系统之一。它有三个不同规模的版本,可满足从边缘计算到云计算的各种需求。Gemini可以广泛应用于创意设计、写作辅助、问题解答、代码生成等领域。

AI模型多模态

剪映Dreamina是抖音旗下的AIGC工具，用户可以根据文本内容生成由AI生成的创意图，支持修整图片大小比例和模板类型。未来会用于抖音的图文或短视频的内容创作，丰富抖音在AI创造方面的内容库。

AI图像生成文生图

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24