Vary Toy : 小型语言模型结合增强视觉词汇

Vary Toy

AI模型 AI 模型推理训练 #小型模型 #视觉词汇 #LVLMs #普通GPU 普通产品开源

简介 :

Vary-toy是一个小型Vary模型，基于Qwen-1.8B作为基础“大”语言模型。Vary-toy引入了改进的视觉词汇，使模型不仅具备Vary的所有特性，还具有更广泛的泛化能力。具体来说，在生成视觉词汇的过程中，我们用目标检测驱动的正样本数据替换自然图像的负样本，更充分地利用了词汇网络的容量，使其能够高效地编码与自然物体对应的视觉信息。在实验中，Vary-toy在DocVQA上实现了65.6%的ANLS，在ChartQA上实现了59.1%的准确率，在RefCOCO上实现了88.1%的准确率，在MMVet上实现了29%的准确率。定价：免费试用，付费版本定价待定。定位：为研究人员提供在资源有限的情况下在普通GPU上训练和部署LVLMs的解决方案。

需求人群 :

研究人员在资源有限的情况下在普通GPU上训练和部署LVLMs

总访问量： 29.7M

占比最多地区： US(17.58%)

本站浏览量： 77.6K

使用场景

研究人员使用Vary-toy在普通GPU上进行文档视觉问答实验

研究人员使用Vary-toy在普通GPU上进行图表问答实验

研究人员使用Vary-toy在普通GPU上进行引用关注指代实验

产品特色

基于Qwen-1.8B的小型Vary模型

引入改进的视觉词汇