Multi Modal Large Language Models
简介 :
该工具旨在通过对最新专有和开源MLLMs进行定性研究,从文本、代码、图像和视频四个模态的角度,评估其泛化能力、可信度和因果推理能力,以提高MLLMs的透明度。我们相信这些属性是定义MLLMs可靠性的几个代表性因素,支持各种下游应用。具体而言,我们评估了闭源的GPT-4和Gemini以及6个开源LLMs和MLLMs。总体上,我们评估了230个手动设计的案例,定性结果总结为12个分数(即4个模态乘以3个属性)。总共,我们揭示了14个实证发现,有助于了解专有和开源MLLMs的能力和局限性,以更可靠地支持多模态下游应用。
需求人群 :
用于评估多模态大型语言模型的性能和可靠性
总访问量: 29.7M
占比最多地区: US(17.94%)
本站浏览量 : 58.2K
使用场景
用于评估一个新的多模态大型语言模型在文本生成方面的性能
用于评估一个开源MLLM在图像处理方面的可信度
用于评估一个专有MLLM在视频内容理解方面的泛化能力
产品特色
评估MLLMs的泛化能力、可信度和因果推理能力
支持各种下游应用
AIbase
智启未来,您的人工智能解决方案智库
简体中文