MLE Bench : 机器学习工程能力的AI代理评估基准

MLE Bench

AI模型评测 AI研究机构 #机器学习 #AI代理 #基准测试 #Kaggle竞赛 #开源普通产品商用

简介 :

MLE-bench是由OpenAI推出的一个基准测试，旨在衡量AI代理在机器学习工程方面的表现。该基准测试汇集了75个来自Kaggle的机器学习工程相关竞赛，形成了一套多样化的挑战性任务，测试了训练模型、准备数据集和运行实验等现实世界中的机器学习工程技能。通过Kaggle公开的排行榜数据，为每项竞赛建立了人类基准。使用开源代理框架评估了多个前沿语言模型在该基准上的表现，发现表现最佳的设置——OpenAI的o1-preview配合AIDE框架——在16.9%的竞赛中至少达到了Kaggle铜牌的水平。此外，还研究了AI代理的各种资源扩展形式以及预训练污染的影响。MLE-bench的基准代码已经开源，以促进未来对AI代理机器学习工程能力的理解。

需求人群 :

MLE-bench的目标受众是机器学习工程师、数据科学家和AI研究人员。这些专业人员可以通过MLE-bench来评估和比较不同AI代理在机器学习工程任务上的表现，从而选择最适合他们项目的AI工具。同时，研究人员可以通过该基准测试来进一步理解AI代理在机器学习工程领域的能力，推动相关技术的发展。

总访问量： 505.0M

占比最多地区： US(17.26%)

本站浏览量： 61.5K

使用场景

机器学习工程师使用MLE-bench来测试和评估不同AI模型在特定任务上的性能。

数据科学家利用MLE-bench来比较不同AI代理在数据预处理和模型训练上的效果。

AI研究人员使用MLE-bench来研究和改进AI代理在机器学习工程任务中的资源利用效率。

产品特色

评估AI代理在机器学习工程任务上的性能

提供75个来自Kaggle的多样化机器学习工程竞赛任务