MLflow 中的评估 UI
·3 分钟阅读
在 MLflow 3.2 中,我们引入了评估的概念,它们是对于理解和改进您的 AI 应用程序至关重要的质量评估和跟踪注解。通过 MLflow 3.3 更新,我们对 UI 进行了一系列更改,使其更容易可视化和管理您的评估,以更好地支持 GenAI 评估工作流程。
新功能:跟踪 UI 的评估优先设计
跟踪 UI 经过重新设计,将评估置于最前面,让您比以往任何时候都更容易在整个应用程序生命周期中创建、查看和管理评估。
主要特性
1. 跟踪查看器:支持 CRUD 操作(MLflow 3.2 发布)
跟踪查看器现在包含一个侧边面板,用于直接从 UI 管理评估。
- 直接在跟踪详细信息视图中创建评估。
- 一目了然地阅读和审阅与跟踪相关的所有评估。
- 更新现有评估以完善评估或纠正错误。
- 在评估不再相关时删除评估。
这种侧边面板方法使您可以方便地创建临时跟踪注解,还可以审阅和更正由其他用户或 LLM 裁判创建的评估。

2. 重新设计的跟踪选项卡(MLflow 3.3 发布)
MLflow 实验中的跟踪选项卡已更新,可在顶层可视化评估,从而更轻松地发现模式、识别异常值和监控质量趋势,而无需深入研究单个跟踪。
- 评估列直接在跟踪列表中显示关键评估指标。
- 用于评估状态和质量分数的视觉指示器。
- 按评估值、日期范围和更多属性进行筛选和排序。

随着评估现在在跟踪选项卡中显着显示,生产监控变得更加有效。您可以快速识别质量分数低的跟踪,并发现影响您应用程序响应的系统性问题。
开始使用
新的评估功能将在 MLflow 3.3 中提供,如果您想提前预览,可以安装 MLflow 3.3.0rc0 发行候选版本。如果您已经在使用 MLflow 的跟踪功能,增强的 UI 将自动显示您已记录的任何现有评估。
要开始利用这些新功能
- 升级到 MLflow 3.3,并在您的实验中访问增强的跟踪选项卡。
- 通过点击跟踪详细信息视图中的任何跟踪来打开跟踪查看器。
- 使用评估面板创建您的第一个评估,无需编码!
有关使用 LLM 裁判和自定义评分器运行评估的更深入教程,请查看快速入门指南!
在文档中了解有关 MLflow 评估和监控功能的更多信息,或浏览MLflow GitHub 存储库以查看接下来的内容。
