Mmstar : 一个用于评估大型视觉语言模型的精英基准测试集

Mmstar

AI模型评测 AI学术研究 #视觉语言模型 #基准测试 #多模态 #人工审查 #数据泄露 #评估指标普通产品开源

简介 :

MMStar是一个旨在评估大型视觉语言模型多模态能力的基准测试集。它包含1500个精心挑选的视觉语言样本,涵盖6个核心能力和18个细分维度。每个样本都经过了人工审查,确保具有视觉依赖性,最小化数据泄露,并需要高级多模态能力来解决。除了传统的准确性指标外,MMStar还提出了两个新的指标来衡量数据泄露和多模态训练的实际性能增益。研究人员可以使用MMStar评估视觉语言模型在多个任务上的多模态能力,并借助新的指标发现模型中存在的潜在问题。

需求人群 :

MMStar主要用于评估和分析大型视觉语言模型在多模态任务上的能力表现,有助于发现模型潜在的问题并指导未来的模型改进。

总访问量： 62

占比最多地区： US(100.00%)

本站浏览量： 58.8K

使用场景

研究人员可以使用MMStar评估自己训练的视觉语言模型在不同视觉语言任务上的表现。

模型开发者可以通过MMStar发现自己模型存在的数据泄露问题,并采取相应措施。

基准测试的结果可以为进一步改进现有视觉语言模型提供指导和启发。

产品特色

包含1500个高质量视觉语言样本

覆盖6个核心能力和18个细分维度