Multi Modal Large Language Models : 提供全面的MLLMs评估

Multi Modal Large Language Models

AI模型评测 AI研究机构 #MLLMs #评估工具 #多模态 #可信度 #泛化能力 #因果推理普通产品开源

简介 :

该工具旨在通过对最新专有和开源MLLMs进行定性研究，从文本、代码、图像和视频四个模态的角度，评估其泛化能力、可信度和因果推理能力，以提高MLLMs的透明度。我们相信这些属性是定义MLLMs可靠性的几个代表性因素，支持各种下游应用。具体而言，我们评估了闭源的GPT-4和Gemini以及6个开源LLMs和MLLMs。总体上，我们评估了230个手动设计的案例，定性结果总结为12个分数（即4个模态乘以3个属性）。总共，我们揭示了14个实证发现，有助于了解专有和开源MLLMs的能力和局限性，以更可靠地支持多模态下游应用。

需求人群 :

用于评估多模态大型语言模型的性能和可靠性

总访问量： 29.7M

占比最多地区： US(17.94%)

本站浏览量： 58.2K

使用场景

用于评估一个新的多模态大型语言模型在文本生成方面的性能

用于评估一个开源MLLM在图像处理方面的可信度

用于评估一个专有MLLM在视频内容理解方面的泛化能力

产品特色

评估MLLMs的泛化能力、可信度和因果推理能力

支持各种下游应用