Promptbench
简介 :
PromptBench是一个基于Pytorch的Python包,用于评估大型语言模型(LLM)。它为研究人员提供了用户友好的API,以便对LLM进行评估。主要功能包括:快速模型性能评估、提示工程、对抗提示评估以及动态评估等。优势是使用简单,可以快速上手评估已有数据集和模型,也可以轻松定制自己的数据集和模型。定位为LLM评估的统一开源库。
需求人群 :
["评估语言模型性能","测试不同提示技术的效果","检查对抗提示的稳健性","动态生成评估样本"]
总访问量: 474.6M
占比最多地区: US(18.64%)
本站浏览量 : 77.0K
使用场景
使用promptbench快速评估语言模型在GLUE基准上的效果
测试基于情感的提示技术对模型性能的影响
构建对抗性提示,评估模型的稳健性
使用DyVal动态生成样本,进行模型评估
产品特色
快速模型性能评估
提示工程
对抗提示评估
动态评估
AIbase
智启未来,您的人工智能解决方案智库
简体中文