MLflow 平台

评估

评估以衡量和改进质量

在开发和生产环境中自信地评估质量，以识别问题并迭代测试改进。

使用 LLM 裁判准确评估自由文本语言输出

预构建的 LLM 裁判

使用内置的 LLM 裁判快速开始，涵盖安全、幻觉、检索质量和相关性。我们基于研究的裁判提供准确、可靠的质量评估，与人类专业知识保持一致。

定制化的 LLM 裁判

定制我们的基础模型，创建符合您业务需求并与您的人类专家判断保持一致的定制 LLM 裁判。

通过评估迭代改进质量

测试新的应用程序/提示变体

MLflow 的 GenAI 评估 API 允许您针对评估和回归数据集测试新的应用程序变体（提示、模型、代码）。每个变体都与其评估结果相关联，从而能够跟踪随时间的改进。

使用基于代码的指标进行自定义

使用我们的自定义指标 API 自定义评估，以衡量您应用程序质量或性能的任何方面。将任何 Python 函数（从正则表达式到自定义逻辑）转换为指标。

通过评估审查 UI 识别根本原因

使用 MLflow 的评估 UI 可视化您的评估摘要，并逐条查看结果，以快速识别根本原因和进一步的改进机会。

并排比较版本

比较两个应用程序变体的评估结果，以了解您的更改是否提高了质量或导致了回归。在“跟踪比较” UI 中并排查看单个问题，以查找差异、调试回归并为您的下一个版本提供信息。

开始使用 MLflow

根据您的需求选择以下两种选项

Apache-2.0 许可证

完全控制您的基础设施

社区支持

免费且完全托管 — 轻松体验 MLflow，无需繁琐设置

由 MLflow 的原始创建者构建和维护

完全开源兼容

参与其中

与开源社区建立联系

加入数百万 MLflow 用户