简介
MMStar是一个旨在评估大型视觉语言模型多模态能力的基准测试集。它包含1500个精心挑选的视觉语言样本,涵盖6个核心能力和18个细分维度。每个样本都经过了人工审查,确保具有视觉依赖性,最小化数据泄露,并需要高级多模态能力来解决。除了传统的准确性指标外,MMStar还提出了两个新的指标来衡量数据泄露和多模态训练的实际性能增益。研究人员可以使用MMStar评估视觉语言模型在多个任务上的多模态能力,并借助新的指标发现模型中存在的潜在问题。
截图

产品特色
包含1500个高质量视觉语言样本
覆盖6个核心能力和18个细分维度
人工审查确保视觉依赖性和最小化数据泄露
提出多模态增益和数据泄露两个新指标
基准测试16种顶尖视觉语言模型
流量来源
直接访问 | 41.58% | 外链引荐 | 35.00% | 邮件 | 0.19% |
自然搜索 | 12.42% | 社交媒体 | 9.09% | 展示广告 | 0.90% |
最新流量情况
月访问量
840
平均访问时长
0.00
每次访问页数
1.02
跳出率
41.82%
总流量趋势图
地理流量分布情况
美国
100.00%
地理流量分布全球图
同类开源产品

SLM Survey
SLM_Survey是一个专注于小型语言模型(SLMs)的研究项目,旨在通过调研和测量,提供对这些模型的深入了解和技术评估。
AI学术研究#Transformer

State Of AI Report 2024
优质新品
State of AI Report 2024是由AI领域投资者Nathan Benaich和Air Street Capital共同制作的年度报告,旨在分析AI领域最有趣的发展,并引发关于AI现状及其对未来影响的知情讨论。
AI学术研究#研究报告

Cheating LLM Benchmarks
Cheating LLM Benchmarks 是一个研究项目,旨在通过构建所谓的“零模型”(null models)来探索在自动语言模型(LLM)基准测试中的作弊行为。
AI学术研究#机器学习

Paper Central
优质新品
Paper Central 是 Hugging Face 推出的一个全面、便捷的学术平台,它将arXiv、Hugging Face 论文页、模型、数据集、Space、GitHub 和会议论文集等多个来源的开源学术资源整合在一起,帮助研究人员
AI学术研究#搜索

Sciagentsdiscovery
SciAgentsDiscovery 是一个利用多智能体系统和大规模本体知识图谱,自动化科学研究的系统。
AI学术研究#科学研究

AI Researcher
AI-Researcher 是一个基于斯坦福大学自然语言处理团队的研究项目,旨在通过人工智能技术辅助研究创意的生成和管理。
AI学术研究#研究辅助

Openresearcher
OpenResearcher是一个先进的科学研究助手,旨在为研究查询提供有帮助的答案。
AI学术研究#AI助手

SWE Bench Verified
优质新品
SWE-bench Verified是OpenAI发布的一个经过人工验证的SWE-bench子集,旨在更可靠地评估AI模型解决现实世界软件问题的能力。
AI模型评测#软件工程

Turtle Benchmark
Turtle Benchmark是一款基于'Turtle Soup'游戏的新型、无法作弊的基准测试,专注于评估大型语言模型(LLMs)的逻辑推理和上下文理解能力。
AI模型评测#逻辑推理
替代品

SLM Survey
SLM_Survey是一个专注于小型语言模型(SLMs)的研究项目,旨在通过调研和测量,提供对这些模型的深入了解和技术评估。
AI学术研究#Transformer

Cheating LLM Benchmarks
Cheating LLM Benchmarks 是一个研究项目,旨在通过构建所谓的“零模型”(null models)来探索在自动语言模型(LLM)基准测试中的作弊行为。
AI学术研究#机器学习

Paper Central
优质新品
Paper Central 是 Hugging Face 推出的一个全面、便捷的学术平台,它将arXiv、Hugging Face 论文页、模型、数据集、Space、GitHub 和会议论文集等多个来源的开源学术资源整合在一起,帮助研究人员
AI学术研究#搜索

Sciagentsdiscovery
SciAgentsDiscovery 是一个利用多智能体系统和大规模本体知识图谱,自动化科学研究的系统。
AI学术研究#科学研究

AI Researcher
AI-Researcher 是一个基于斯坦福大学自然语言处理团队的研究项目,旨在通过人工智能技术辅助研究创意的生成和管理。
AI学术研究#研究辅助

Openresearcher
OpenResearcher是一个先进的科学研究助手,旨在为研究查询提供有帮助的答案。
AI学术研究#AI助手

Turtle Benchmark
Turtle Benchmark是一款基于'Turtle Soup'游戏的新型、无法作弊的基准测试,专注于评估大型语言模型(LLMs)的逻辑推理和上下文理解能力。
AI模型评测#逻辑推理

Icsfsurvey
ICSFSurvey是一个关于大型语言模型内部一致性和自我反馈的调查研究。
AI学术研究#自我反馈

Prism Alignment
prism-alignment 是一个由 HannahRoseKirk 创建的数据集,专注于研究大型语言模型(LLMs)的偏好和价值观对齐问题。
AI学术研究#价值观对齐
精选AI产品推荐

Nocode
中文精选
NoCode 是一款无需编程经验的平台,允许用户通过自然语言描述创意并快速生成应用,旨在降低开发门槛,让更多人能实现他们的创意。
开发平台#应用开发
912

Listenhub
优质新品
ListenHub 是一款轻量级的 AI 播客生成工具,支持中文和英语,基于前沿 AI 技术,能够快速生成用户感兴趣的播客内容。
音频生成#AI
348

Lovart
国外精选
Lovart 是一款革命性的 AI 设计代理,能够将创意提示转化为艺术作品,支持从故事板到品牌视觉的多种设计需求。
AI设计工具#创意工具
1,128

Fastvlm
FastVLM 是一种高效的视觉编码模型,专为视觉语言模型设计。
AI模型#图像处理开源
564

Smart PDFs
国外精选
Smart PDFs 是一个在线工具,利用 AI 技术快速分析 PDF 文档,并生成简明扼要的总结。
文章摘要#AI
984

Keysync
KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。
视频编辑#视频处理开源
480

Anyvoice
AnyVoice是一款领先的AI声音生成器,采用先进的深度学习模型,将文本转换为与人类无法区分的自然语音。
音频生成#文本转语音
26.38k

Liblibai
中文精选
LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。
AI模型#图像生成
344.42k