跳到主要内容

MLflow 中的评估 UI

·3 分钟阅读
MLflow maintainers
MLflow 维护者

在 MLflow 3.2 中,我们引入了评估的概念,这些评估是质量评估和跟踪注释,对于理解和改进您的 AI 应用程序至关重要。随着 MLflow 3.3 的更新,我们对 UI 进行了一系列更改,使其更容易可视化和管理您的评估,以更好地支持 GenAI 评估工作流。

新增功能:追踪 UI 的评估优先设计

追踪 UI 已重新设计,将评估放在首位,让您在整个应用程序生命周期中比以往任何时候都更容易创建、查看和管理评估。

主要特性

1. 跟踪查看器:支持 CRUD 操作(MLflow 3.2 发布)

跟踪查看器现在包含一个侧边栏,用于直接从 UI 管理评估。

  • 直接在跟踪详细视图中创建评估
  • 一目了然地阅读和查看与跟踪相关的所有评估。
  • 更新现有评估以完善评估或纠正错误。
  • 删除不再相关的评估

这种侧边栏方法使您可以方便地创建临时跟踪注释,还可以查看和更正其他用户或 LLM 裁判创建的评估。

Trace viewer with assessments side-panel

2. 重新设计的跟踪选项卡(MLflow 3.3 发布)

MLflow 实验中的跟踪选项卡已更新,可在顶层可视化评估,从而更容易发现模式、识别异常值和监控质量趋势,而无需深入研究单个跟踪。

  • 评估列直接在跟踪列表中显示关键评估指标。
  • 评估状态和质量分数的视觉指示器
  • 按评估值、日期范围和其他属性进行过滤和排序

Traces tab with assessments

由于评估现在突出显示在跟踪选项卡中,生产监控变得更加有效。您可以快速识别质量分数差的跟踪,并发现影响应用程序响应的系统性问题。

开始使用

新的评估功能将在 MLflow 3.3 中提供,如果您想提前预览,可以安装 MLflow 3.3.0rc0 发布候选版本。如果您已经在使用 MLflow 的跟踪功能,增强的 UI 将自动显示您已记录的任何现有评估。

要开始利用这些新功能,请

  1. 升级到 MLflow 3.3 并访问实验中的增强跟踪选项卡。
  2. 单击跟踪详细视图中的任何跟踪以打开跟踪查看器。
  3. 使用评估面板创建您的第一个评估,无需编码!

有关使用 LLM 裁判和自定义评分器运行评估的更深入教程,请查看快速入门指南


文档中了解有关 MLflow 评估和监控功能的更多信息,或探索MLflow GitHub 存储库,了解接下来的内容。