Showui : 一个用于GUI视觉代理的视觉-语言-行动模型。

Showui

Showui

AI模型开发与工具 #视觉-语言-行动模型 #GUI自动化 #自然语言处理 #人机交互普通产品开源

简介 :

ShowUI是一个轻量级的视觉-语言-行动模型，专为GUI代理设计。它通过结合视觉输入、语言理解和行动预测，使得计算机界面能够以更自然的方式响应用户的指令。ShowUI的重要性在于它能够提高人机交互的效率和自然性，特别是在图形用户界面自动化和自然语言处理领域。该模型由showlab实验室开发，目前已在huggingface平台发布，供研究和应用。

需求人群 :

目标受众为开发者、研究人员以及对自然语言处理和人机交互感兴趣的技术爱好者。ShowUI适合他们因为它提供了一个强大的工具来开发和研究基于视觉和语言的交互系统，可以应用于自动化测试、智能助手等多个领域。

总访问量： 474.6M

占比最多地区： US(19.34%)

本站浏览量： 62.7K

使用场景

- 使用ShowUI模型自动化网页操作，如填写表单、点击按钮。

- 利用ShowUI进行图像识别和基于指令的界面导航。

- 将ShowUI集成到自定义的应用中，以提供更自然的用户体验。

产品特色

- 视觉-语言-行动模型：结合视觉输入、语言理解和行动预测。

- GUI自动化：用于图形用户界面的自动化操作。

- 模型训练与部署：支持在huggingface平台进行模型训练和部署。

- 多模态输入：支持图像和文本的多模态输入。

- 行动预测：能够预测用户指令对应的界面操作。

- 界面操作：支持点击、输入、选择等多种界面操作。

- 模型微调：提供微调代码和指令，以适应特定应用场景。

使用教程

1. 安装依赖：通过pip安装requirements.txt中列出的依赖。

2. 克隆仓库：使用git clone命令克隆ShowUI的代码仓库。

3. 启动界面：运行app.py启动ShowUI的图形界面。

4. 加载模型：使用Qwen2VLForConditionalGeneration类加载预训练的ShowUI模型。

5. 界面操作：通过发送包含系统提示、图像和查询的messages列表来执行界面操作。

6. 结果展示：通过draw_point函数在图像上标记操作结果，如点击位置。

7. 微调模型：根据需要对模型进行微调，以适应特定的应用场景。

精选AI产品推荐

Deepmind Gemini

Gemini是谷歌DeepMind推出的新一代人工智能系统。它能够进行多模态推理,支持文本、图像、视频、音频和代码之间的无缝交互。Gemini在语言理解、推理、数学、编程等多个领域都超越了之前的状态,成为迄今为止最强大的AI系统之一。它有三个不同规模的版本,可满足从边缘计算到云计算的各种需求。Gemini可以广泛应用于创意设计、写作辅助、问题解答、代码生成等领域。

AI模型多模态

LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。平台提供海量免费AI创作模型,用户可以搜索使用模型进行图像、文字、音频等创作。平台还支持用户训练自己的AI模型。平台定位于广大创作者用户,致力于创造条件普惠,服务创意产业,让每个人都享有创作的乐趣。

AI模型图像生成

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24