评估
评估以衡量和改进质量
在开发和生产环境中自信地评估质量,以识别问题并迭代测试改进。
使用 LLM 裁判准确评估自由文本语言输出
预构建的 LLM 裁判
使用内置的 LLM 裁判快速入门,涵盖安全性、幻觉、检索质量和相关性。我们基于研究的裁判可提供与人类专业知识一致的准确、可靠的质量评估。
定制 LLM 裁判
调整我们的基础模型,创建根据您的业务需求量身定制的 LLM 裁判,使其与您的人类专家的判断保持一致。
通过评估迭代改进质量
测试新的应用/提示变体
MLflow 的 GenAI 评估 API 允许您针对评估和回归数据集测试新的应用变体(提示、模型、代码)。每个变体都与其评估结果相关联,从而能够跟踪随时间推移的改进。
使用基于代码的指标进行自定义
使用我们的自定义指标 API 自定义评估,以衡量应用质量或性能的任何方面。将任何 Python 函数(从正则表达式到自定义逻辑)转换为指标。
使用评估审查 UI 识别根本原因
使用 MLflow 的评估 UI 可视化评估摘要,并逐条查看结果,从而快速识别根本原因和进一步改进的机会。
并排比较版本
比较 2 个应用变体的评估,以了解您的更改是提高了还是降低了质量。在“跟踪比较”UI 中并排审查单个问题,以发现差异、调试回归并为您的下一个版本提供信息。
开始使用 MLflow
根据您的需求选择以下两种选项

自托管开源版

Apache-2.0 许可证
完全控制您的基础设施
社区支持

托管服务

ON
免费且完全托管 — 轻松体验 MLflow,无需繁琐设置
由 MLflow 的原始创建者构建和维护
完全开源兼容