Openscholar ExpertEval : 专家评估界面和数据评估脚本

Openscholar ExpertEval

Openscholar ExpertEval

研究工具模型训练与部署 #专家评估 #数据评估 #检索增强型语言模型 #科学文献合成 #人工评估普通产品开源

简介 :

OpenScholar_ExpertEval是一个用于专家评估和数据评估的界面和脚本集合，旨在支持OpenScholar项目。该项目通过检索增强型语言模型合成科学文献，对模型生成的文本进行细致的人工评估。产品背景基于AllenAI的研究项目，具有重要的学术和技术价值，能够帮助研究人员和开发者更好地理解和改进语言模型。

需求人群 :

目标受众为研究人员、开发者和教育工作者，特别是那些在自然语言处理和机器学习领域工作的专业人士。该产品适合他们，因为它提供了一个平台来评估和改进语言模型的性能，特别是在科学文献合成方面。

总访问量： 474.6M

占比最多地区： US(19.34%)

本站浏览量： 45.8K

使用场景

研究人员使用该工具来评估不同语言模型生成的科学文献的准确性和可靠性。

教育工作者可以利用该工具来教授学生如何评估AI生成的内容。

开发者可以利用该工具来测试和改进他们自己的语言模型。

产品特色

提供人工评估标注界面：用于专家对模型生成的文本进行评估。

支持RAG评估：能够对检索增强型生成模型进行评估。

细粒度评估：允许专家进行更细致的评估。

数据准备：需要将评估实例放入指定文件夹，支持JSONL格式。

结果数据库存储：评估结果默认存储在本地数据库文件中。

结果导出：支持将评估结果导出为Excel文件。

评估指标计算：提供脚本计算评估指标和一致性。

界面分享：支持在云服务上部署，以便分享评估界面。

使用教程

1. 安装环境：按照README中的指南创建并激活虚拟环境，并安装依赖。

2. 准备数据：将评估实例放入`data`文件夹中，每个实例应包含提示和两个模型的完成结果。

3. 运行应用：使用`python app.py`命令启动评估界面。

4. 访问界面：在浏览器中打开`http://localhost:5001`来访问评估界面。

5. 评估结果：评估完成后，可以在`http://localhost:5001/summary`查看进度。

6. 结果导出：使用`python export_db.py`命令将评估结果导出为Excel文件。

7. 计算指标：使用`python compute_metrics.py`命令计算评估指标和一致性。

精选AI产品推荐

Elicit是一款能够以超人速度分析研究论文的AI助手。它可以自动完成繁琐的研究任务，如论文摘要、数据提取和综合研究发现。用户可以搜索相关论文、获取一句话摘要、从论文中提取详细信息并进行整理、寻找主题和概念等。Elicit的准确度高，使用方便，已受到广大研究者的信赖和好评。

研究工具论文

Ollama是一款本地大语言模型工具，让用户能够快速运行Llama 2、Code Llama和其他模型。用户可以自定义和创建他们自己的模型。Ollama目前支持macOS和Linux，Windows版本即将推出。该产品定位于为用户提供本地化的大语言模型运行环境，以满足用户个性化的需求。

模型训练与部署本地化

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24