# 评估工具
评估工具
SFR Judge
SFR-Judge 是 Salesforce AI Research 推出的一系列评估模型,旨在通过人工智能技术加速大型语言模型(LLMs)的评估和微调过程。
AI模型#评估工具
324
1X World Model
1X 世界模型是一种机器学习程序,能够模拟世界如何响应机器人的行为。
模型训练与部署#虚拟模拟
408
Weavel
优质新品
Weavel是一个AI提示工程师,它通过追踪、数据集管理、批量测试和评估等功能,帮助用户优化大型语言模型(LLM)的应用。
开发与工具#数据集管理
372
Ragelo
优质新品
RAGElo是一个工具集,使用Elo评分系统帮助选择最佳的基于检索增强生成(RAG)的大型语言模型(LLM)代理。
AI模型#RAG开源
768
TC Bench
优质新品
TC-Bench是一个专门用于评估视频生成模型的时间组合性的工具。
AI视频生成#评估工具开源
708
Prometheus Eval
Prometheus-Eval 是一个用于评估大型语言模型(LLM)在生成任务中表现的开源工具集。
AI模型#语言模型开源
672
Multi Modal Large Language Models
该工具旨在通过对最新专有和开源MLLMs进行定性研究,从文本、代码、图像和视频四个模态的角度,评估其泛化能力、可信度和因果推理能力,以提高MLLMs的透明度。
AI模型评测#评估工具开源
516
Unitxt
Unitxt是一款创新的库,专为生成式语言模型量身定制,用于定制文本数据准备和评估。
AI开发助手#生成式AI开源
480
Openlayer
Openlayer是一个评估工具,适用于您的开发和生产流程,帮助您自信地发布高质量的模型。
模型训练与部署#模型测试
348