TOFU : TOFU数据集为大型语言模型的虚构遗忘任务提供基准。

TOFU

AI模型 AI学术研究 #语言模型 #遗忘 #基准数据集 #聊天机器人普通产品开源

简介 :

TOFU数据集包含根据不存在的200位作者虚构生成的问答对,用于评估大型语言模型在真实任务上的遗忘性能。该任务的目标是遗忘在各种遗忘集比例上经过微调的模型。该数据集采用问答格式,非常适合用于流行的聊天模型,如Llama2、Mistral或Qwen。但是,它也适用于任何其他大型语言模型。对应的代码库是针对Llama2聊天和Phi-1.5模型编写的,但可以轻松地适配到其他模型。

需求人群 :

评估语言模型的遗忘能力,训练可遗忘的聊天机器人模型。

总访问量： 474.6M

占比最多地区： US(19.34%)

本站浏览量： 70.9K

使用场景

使用TOFU数据集微调Llama模型,然后在不同规模的遗忘集上遗忘模型,评估遗忘性能。

基于TOFU数据集构建聊天机器人,训练可遗忘的模型,避免机器人记住或泄露敏感信息。

使用TOFU代码库中的遗忘功能,测试不同模型在遗忘特定信息时的性能差异。

产品特色

提供基准遗忘数据集

支持大型语言模型的遗忘性能评估