Llama 3 Patronus Lynx 8B Instruct V1.1 : 开源幻觉评估模型

模型训练与部署

Llama 3 Patronus Lynx 8B Instruct V1.1

Llama 3 Patronus Lynx 8B Instruct V1.1

模型训练与部署研究工具 #文本生成 #幻觉评估 #对话系统 #自然语言处理普通产品开源

简介 :

Patronus-Lynx-8B-Instruct-v1.1是基于meta-llama/Meta-Llama-3.1-8B-Instruct模型的微调版本，主要用于检测RAG设置中的幻觉。该模型经过CovidQA、PubmedQA、DROP、RAGTruth等多个数据集的训练，包含人工标注和合成数据。它能够评估给定文档、问题和答案是否忠实于文档内容，不提供超出文档范围的新信息，也不与文档信息相矛盾。

需求人群 :

目标受众为研究人员、开发者和企业，他们需要一个可靠的模型来评估和生成忠实于源文档的文本。该模型适合用于自然语言处理、文本摘要、问答系统和聊天机器人等应用场景。

总访问量： 29.7M

占比最多地区： US(17.94%)

本站浏览量： 49.1K

使用场景

研究人员使用该模型来评估医学文献中答案的准确性。

开发者将模型集成到问答系统中，提供基于文档的准确回答。

企业使用模型检测金融报告中的信息一致性。

产品特色

幻觉检测：评估答案是否忠实于给定文档。

文本生成：基于用户输入的问题和文档生成答案。

聊天格式训练：模型以聊天格式进行训练，适合对话式应用。

多数据集训练：包括CovidQA、PubmedQA、DROP、RAGTruth等。

长序列处理：支持最大128000个token的序列长度。

开源许可：遵循cc-by-nc-4.0许可，可自由使用和修改。

高性能：在多个基准测试中表现优异，如HaluEval、RAGTruth等。

使用教程

1. 准备问题、文档和答案的输入数据。

2. 使用模型推荐的prompt格式组织输入数据。

3. 调用Hugging Face的pipeline接口，传入模型名称和配置参数。

4. 将准备好的数据作为用户消息传递给pipeline。

5. 获取模型输出，包括'PASS'或'FAIL'的评分和推理。

6. 分析模型输出，根据评分和推理判断答案是否忠实于文档。

7. 根据需要调整模型参数，优化性能。

精选AI产品推荐

Elicit是一款能够以超人速度分析研究论文的AI助手。它可以自动完成繁琐的研究任务，如论文摘要、数据提取和综合研究发现。用户可以搜索相关论文、获取一句话摘要、从论文中提取详细信息并进行整理、寻找主题和概念等。Elicit的准确度高，使用方便，已受到广大研究者的信赖和好评。

研究工具论文

Ollama是一款本地大语言模型工具，让用户能够快速运行Llama 2、Code Llama和其他模型。用户可以自定义和创建他们自己的模型。Ollama目前支持macOS和Linux，Windows版本即将推出。该产品定位于为用户提供本地化的大语言模型运行环境，以满足用户个性化的需求。

模型训练与部署本地化

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24