Minigemini
Mini-Gemini可应用于需要同时处理文本和图像的各种场景,如视觉问答、图像描述生成、图像编辑等。
总访问量: 1,013
占比最多地区: US(100.00%)
5,052
简介
Mini-Gemini是一个多模态视觉语言模型,支持从2B到34B的系列密集和MoE大型语言模型,同时具备图像理解、推理和生成能力。它基于LLaVA构建,利用双视觉编码器提供低分辨率视觉嵌入和高分辨率候选区域,采用补丁信息挖掘在高分辨率区域和低分辨率视觉查询之间进行补丁级挖掘,将文本与图像融合用于理解和生成任务。支持包括COCO、GQA、OCR-VQA、VisualGenome等多个视觉理解基准测试。
截图
产品特色
低分辨率/高分辨率双视觉编码器
补丁级信息挖掘
基于大型语言模型的图文融合
支持视觉理解和生成任务
流量来源
直接访问69.64%外链引荐11.56%邮件0.05%
自然搜索10.63%社交媒体7.47%展示广告0.66%
最新流量情况
月访问量
815
平均访问时长
0.00
每次访问页数
1.02
跳出率
52.84%
总流量趋势图
地理流量分布情况
美国
100.00%
地理流量分布全球图