MLflow 中的评估 UI

2025 年 8 月 11 日 ·3 分钟阅读

在 MLflow 3.2 中，我们引入了评估的概念，这些评估是质量评估和跟踪注释，对于理解和改进您的 AI 应用程序至关重要。随着 MLflow 3.3 的更新，我们对 UI 进行了一系列更改，使其更容易可视化和管理您的评估，以更好地支持 GenAI 评估工作流。

新增功能：追踪 UI 的评估优先设计

追踪 UI 已重新设计，将评估放在首位，让您在整个应用程序生命周期中比以往任何时候都更容易创建、查看和管理评估。

跟踪查看器现在包含一个侧边栏，用于直接从 UI 管理评估。

这种侧边栏方法使您可以方便地创建临时跟踪注释，还可以查看和更正其他用户或 LLM 裁判创建的评估。

Trace viewer with assessments side-panel

MLflow 实验中的跟踪选项卡已更新，可在顶层可视化评估，从而更容易发现模式、识别异常值和监控质量趋势，而无需深入研究单个跟踪。

Traces tab with assessments

由于评估现在突出显示在跟踪选项卡中，生产监控变得更加有效。您可以快速识别质量分数差的跟踪，并发现影响应用程序响应的系统性问题。

新的评估功能将在 MLflow 3.3 中提供，如果您想提前预览，可以安装 MLflow 3.3.0rc0 发布候选版本。如果您已经在使用 MLflow 的跟踪功能，增强的 UI 将自动显示您已记录的任何现有评估。

要开始利用这些新功能，请

有关使用 LLM 裁判和自定义评分器运行评估的更深入教程，请查看快速入门指南！

在文档中了解有关 MLflow 评估和监控功能的更多信息，或探索MLflow GitHub 存储库，了解接下来的内容。