Mmstar
MMStar主要用于评估和分析大型视觉语言模型在多模态任务上的能力表现,有助于发现模型潜在的问题并指导未来的模型改进。
总访问量: 62
占比最多地区: US(100.00%)
528
简介
MMStar是一个旨在评估大型视觉语言模型多模态能力的基准测试集。它包含1500个精心挑选的视觉语言样本,涵盖6个核心能力和18个细分维度。每个样本都经过了人工审查,确保具有视觉依赖性,最小化数据泄露,并需要高级多模态能力来解决。除了传统的准确性指标外,MMStar还提出了两个新的指标来衡量数据泄露和多模态训练的实际性能增益。研究人员可以使用MMStar评估视觉语言模型在多个任务上的多模态能力,并借助新的指标发现模型中存在的潜在问题。
截图
产品特色
包含1500个高质量视觉语言样本
覆盖6个核心能力和18个细分维度
人工审查确保视觉依赖性和最小化数据泄露
提出多模态增益和数据泄露两个新指标
基准测试16种顶尖视觉语言模型
流量来源
直接访问41.58%外链引荐35.00%邮件0.19%
自然搜索12.42%社交媒体9.09%展示广告0.90%
最新流量情况
月访问量
840
平均访问时长
0.00
每次访问页数
1.02
跳出率
41.82%
总流量趋势图
地理流量分布情况
美国
100.00%
地理流量分布全球图
同类开源产品
SLM Survey
SLM_Survey是一个专注于小型语言模型(SLMs)的研究项目,旨在通过调研和测量,提供对这些模型的深入了解和技术评估。
AI学术研究#Transformer
State Of AI Report 2024
优质新品
State of AI Report 2024是由AI领域投资者Nathan Benaich和Air Street Capital共同制作的年度报告,旨在分析AI领域最有趣的发展,并引发关于AI现状及其对未来影响的知情讨论。
AI学术研究#研究报告
Cheating LLM Benchmarks
Cheating LLM Benchmarks 是一个研究项目,旨在通过构建所谓的“零模型”(null models)来探索在自动语言模型(LLM)基准测试中的作弊行为。
AI学术研究#机器学习
Paper Central
优质新品
Paper Central 是 Hugging Face 推出的一个全面、便捷的学术平台,它将arXiv、Hugging Face 论文页、模型、数据集、Space、GitHub 和会议论文集等多个来源的开源学术资源整合在一起,帮助研究人员
AI学术研究#搜索
Sciagentsdiscovery
SciAgentsDiscovery 是一个利用多智能体系统和大规模本体知识图谱,自动化科学研究的系统。
AI学术研究#科学研究
AI Researcher
AI-Researcher 是一个基于斯坦福大学自然语言处理团队的研究项目,旨在通过人工智能技术辅助研究创意的生成和管理。
AI学术研究#研究辅助
Openresearcher
OpenResearcher是一个先进的科学研究助手,旨在为研究查询提供有帮助的答案。
AI学术研究#AI助手
SWE Bench Verified
优质新品
SWE-bench Verified是OpenAI发布的一个经过人工验证的SWE-bench子集,旨在更可靠地评估AI模型解决现实世界软件问题的能力。
AI模型评测#软件工程
Turtle Benchmark
Turtle Benchmark是一款基于'Turtle Soup'游戏的新型、无法作弊的基准测试,专注于评估大型语言模型(LLMs)的逻辑推理和上下文理解能力。
AI模型评测#逻辑推理
替代品
SLM Survey
SLM_Survey是一个专注于小型语言模型(SLMs)的研究项目,旨在通过调研和测量,提供对这些模型的深入了解和技术评估。
AI学术研究#Transformer
Cheating LLM Benchmarks
Cheating LLM Benchmarks 是一个研究项目,旨在通过构建所谓的“零模型”(null models)来探索在自动语言模型(LLM)基准测试中的作弊行为。
AI学术研究#机器学习
Paper Central
优质新品
Paper Central 是 Hugging Face 推出的一个全面、便捷的学术平台,它将arXiv、Hugging Face 论文页、模型、数据集、Space、GitHub 和会议论文集等多个来源的开源学术资源整合在一起,帮助研究人员
AI学术研究#搜索
Sciagentsdiscovery
SciAgentsDiscovery 是一个利用多智能体系统和大规模本体知识图谱,自动化科学研究的系统。
AI学术研究#科学研究
AI Researcher
AI-Researcher 是一个基于斯坦福大学自然语言处理团队的研究项目,旨在通过人工智能技术辅助研究创意的生成和管理。
AI学术研究#研究辅助
Openresearcher
OpenResearcher是一个先进的科学研究助手,旨在为研究查询提供有帮助的答案。
AI学术研究#AI助手
Turtle Benchmark
Turtle Benchmark是一款基于'Turtle Soup'游戏的新型、无法作弊的基准测试,专注于评估大型语言模型(LLMs)的逻辑推理和上下文理解能力。
AI模型评测#逻辑推理
Icsfsurvey
ICSFSurvey是一个关于大型语言模型内部一致性和自我反馈的调查研究。
AI学术研究#自我反馈
Prism Alignment
prism-alignment 是一个由 HannahRoseKirk 创建的数据集,专注于研究大型语言模型(LLMs)的偏好和价值观对齐问题。
AI学术研究#价值观对齐