# 模型评估

Arthur Engine
Arthur Engine 是一个旨在监控和治理 AI/ML 工作负载的工具,利用流行的开源技术和框架。
模型训练与部署#机器学习开源
756

Ragaai
优质新品
RagaAI Catalyst 是一款专注于 AI 可观察性、监控和评估的平台,旨在帮助开发者和企业优化 AI 开发流程。
开发与工具#模型评估
888

Hallucination Leaderboard
该产品是一个由Vectara开发的开源项目,用于评估大型语言模型(LLM)在总结短文档时的幻觉产生率。
研究工具#幻觉检测开源
1,092

Zerobench
ZeroBench 是一个专为评估大型多模态模型(LMMs)视觉理解能力而设计的基准测试。
AI模型#基准测试开源
552

SWE Lancer
国外精选
SWE-Lancer 是由 OpenAI 推出的一个基准测试,旨在评估前沿语言模型在真实世界中的自由软件工程任务中的表现。
研究工具#基准测试
780

Cheating LLM Benchmarks
Cheating LLM Benchmarks 是一个研究项目,旨在通过构建所谓的“零模型”(null models)来探索在自动语言模型(LLM)基准测试中的作弊行为。
AI学术研究#机器学习开源
276

Anthropic Console
Anthropic Console是一个为AI应用开发提供支持的平台,它通过内置的提示生成器,测试案例生成器和模型响应评估工具,帮助开发者快速生成高质量的提示,测试和优化AI模型的响应。
AI开发助手#自动化测试
684

Fiddlecube
国外精选
FiddleCube是一个专注于数据科学领域的产品,它能够快速地从用户的数据中生成问答对,帮助用户评估大型语言模型(LLMs)。
研究工具#模型评估
336

Frontier Safety Framework
Frontier Safety Framework是Google DeepMind提出的一套协议,用于主动识别未来AI能力可能导致严重伤害的情况,并建立机制来检测和减轻这些风险。
AI安全#风险评估
408

Imagenhub
ImagenHub是一个一站式库,用于标准化所有条件图像生成模型的推理和评估。
AI图像生成#模型评估开源
504

Vision Arena
Vision Arena是一个由Hugging Face创建的开源平台,用于测试和比较不同的计算机视觉模型效果。
AI图像检测识别#模型评估开源
1,620

Phixtral 2x2 8
phixtral-2x2_8是第一个由两个microsoft/phi-2模型制作的混合专家模型,受到mistralai/Mixtral-8x7B-v0.1架构的启发。
AI模型#文本生成开源
972

Algomax
Algomax简化LLM和RAG模型的评估,优化提示开发,并通过直观的仪表板提供对定性指标的独特洞察。
模型训练与部署#RAG
732

Manot
Manot洞察管理平台通过准确定位改进计算机视觉模型的表现。
AI模型#机器学习
312
精选AI产品推荐

Nocode
中文精选
NoCode 是一款无需编程经验的平台,允许用户通过自然语言描述创意并快速生成应用,旨在降低开发门槛,让更多人能实现他们的创意。
开发平台#应用开发
912

Listenhub
优质新品
ListenHub 是一款轻量级的 AI 播客生成工具,支持中文和英语,基于前沿 AI 技术,能够快速生成用户感兴趣的播客内容。
音频生成#AI
348

Lovart
国外精选
Lovart 是一款革命性的 AI 设计代理,能够将创意提示转化为艺术作品,支持从故事板到品牌视觉的多种设计需求。
AI设计工具#创意工具
1,128

Fastvlm
FastVLM 是一种高效的视觉编码模型,专为视觉语言模型设计。
AI模型#图像处理开源
564

Smart PDFs
国外精选
Smart PDFs 是一个在线工具,利用 AI 技术快速分析 PDF 文档,并生成简明扼要的总结。
文章摘要#AI
984

Keysync
KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。
视频编辑#视频处理开源
480

Anyvoice
AnyVoice是一款领先的AI声音生成器,采用先进的深度学习模型,将文本转换为与人类无法区分的自然语音。
音频生成#文本转语音
26.38k

Liblibai
中文精选
LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。
AI模型#图像生成
344.42k