Flageval
FlagEval的目标受众主要是人工智能领域的研究者、开发者和企业。对于研究者来说,这个平台可以帮助他们了解不同模型的性能,优化自己的研究;对于开发者而言,可以通过评测结果选择适合的模型进行应用开发;企业可以通过平台了解行业趋势,选择合适的
总访问量: 7,842
占比最多地区: CN(79.69%)
720
简介
FlagEval是一个模型评测平台,专注于大语言模型和多模态模型的评测。它提供了一个公正、透明的环境,让不同的模型在同一标准下进行比较,帮助研究者和开发者了解模型性能,推动人工智能技术的发展。该平台涵盖了对话模型、视觉语言模型等多种模型类型,支持开源和闭源模型的评测,并提供专项评测如K12学科测验和金融量化交易评测。
截图
产品特色
提供大语言模型和多模态模型的评测服务
支持开源和闭源模型的评测
提供专项评测,如K12学科测验和金融量化交易评测
累计查看人数和模型总数的统计
模型参数规模的分类评测
主观评测和客观评测两种评测方式
提供模型的详细信息,包括名称、版本、总分等
使用教程
1. 访问FlagEval官方网站:https://flageval.baai.ac.cn/#/leaderboard
2. 根据需要选择模型类型,如对话模型、视觉语言模型等
3. 查看不同模型的评测结果,包括总分、参数规模等
4. 点击感兴趣的模型,查看模型的详细信息,如名称、版本、总分等
5. 如果需要专项评测,可以点击对应的专项评测链接,如K12学科测验、金融量化交易评测等
6. 根据评测结果,选择合适的模型进行研究或开发工作
7. 可以注册账号,提交自己的模型参与评测,或查看更多评测数据和分析
流量来源
直接访问51.48%外链引荐35.52%邮件0.13%
自然搜索11.10%社交媒体1.47%展示广告0.30%
最新流量情况
月访问量
4142
平均访问时长
174.76
每次访问页数
3.44
跳出率
20.70%
总流量趋势图
地理流量分布情况
中国
79.69%
美国
7.10%
新加坡
5.93%
中国香港
4.33%
中国台湾
2.95%
地理流量分布全球图
同类开源产品
MIT MAIA
优质新品
MAIA(Multimodal Automated Interpretability Agent)是由MIT计算机科学与人工智能实验室(CSAIL)开发的一个自动化系统,旨在提高人工智能模型的解释性。
研究工具#自动化
Dmind
DMind-1 和 DMind-1-mini 是针对 Web3 任务的领域专用大型语言模型,提供比其他通用模型更高的领域准确性、指令跟随能力及专业理解。
AI模型#人工智能
Arxiv Summarizer
该产品是一个 Python 脚本,利用 Gemini API 从 arXiv 获取和总结研究论文。
研究工具#论文摘要
Fastvlm
FastVLM 是一种高效的视觉编码模型,专为视觉语言模型设计。
AI模型#图像处理
Surfsense
SurfSense 是一款开源的 AI 研究助手,它将多种外部资源(如搜索引擎、Slack、Notion 等)整合在一起,帮助用户高效地进行研究和信息管理。
研究工具#信息管理
Zerosearch
ZeroSearch 是一种新颖的强化学习框架,旨在激励大型语言模型(LLMs)的搜索能力,而无需与实际搜索引擎进行交互。
AI模型#搜索能力
Deerflow
DeerFlow 是一个深度研究框架,旨在结合语言模型与如网页搜索、爬虫及 Python 执行等专用工具,以推动深入研究工作。
研究工具#开源
Notellm
NoteLLM 是一款专注于用户生成内容的可检索大型语言模型,旨在提升推荐系统的性能。
AI模型#多模态处理
Deepseek Prover V2 671B
DeepSeek-Prover-V2-671B 是一个先进的人工智能模型,旨在提供强大的推理能力。
AI模型#开源