使用 MLflow 客户端 API

在上一个部分，我们启动了一个 MLflow 跟踪服务器和 MLflow UI 实例。在此阶段，我们将通过一个主要机制与跟踪服务器进行交互，该机制是您在训练 ML 模型时将使用的主要机制，即 MlflowClient。在本教程的整个过程中，此客户端 API 将是您与 MLflow 跟踪功能交互的主要界面，使您能够

初始化一个新实验。
在一个实验中启动运行。
记录运行的参数、指标和标签。
记录与运行关联的工件，例如模型、表格、图表等。

导入依赖项

为了使用 MLflowClient API，第一步是导入必要的模块。

from mlflow import MlflowClient
from pprint import pprint
from sklearn.ensemble import RandomForestRegressor

导入这些模块后，您就可以配置客户端并告知有关跟踪服务器位置的具体信息。

配置 MLflow 跟踪客户端

默认情况下，除非修改了 MLFLOW_TRACKING_URI 环境变量，否则初始化 MlflowClient 会将您的本地存储指定为跟踪服务器。这意味着您的实验、数据、模型和相关属性将存储在当前的执行目录中。

在本指南的上下文中，我们将使用文档前面初始化的跟踪服务器，而不是使用客户端将数据记录到本地文件系统目录。

为了连接到我们在此教程前一节中创建的跟踪服务器，我们需要使用我们在启动服务器时为其分配的 URI。我们提交给 mlflow server 命令的两个参数是 host 和 port。两者组合起来，就构成了我们将要指定的 tracking_uri 参数，用于启动一个客户端实例。

client = MlflowClient(tracking_uri="http://127.0.0.1:8080")

现在我们有了一个可以向跟踪服务器发送数据和从跟踪服务器检索数据的客户端接口。

默认实验

在我们开始将任何内容记录到跟踪服务器之前，让我们先看看在启动任何 MLflow 跟踪服务器时就已经存在的一个关键功能：默认实验。

默认实验是一个占位符，用于封装所有运行信息，前提是未声明明确的实验。在使用 MLflow 时，您将创建新的实验以组织项目、项目迭代，或将大型建模活动逻辑地分组到一个分层集合中。但是，如果您在开始使用 MLflow 跟踪功能之前忘记创建新实验，默认实验会为您提供一个回退机制，以确保在执行运行时不会丢失您宝贵的跟踪数据。

让我们使用 mlflow.client.MlflowClient.search_experiments() API 来查看这个默认实验。

搜索实验

我们要做的第一件事是查看服务器上实验的元数据。我们可以通过使用 mlflow.client.MlflowClient.search_experiments() API 来实现。让我们发出一个搜索查询，看看结果是什么。

all_experiments = client.search_experiments()

print(all_experiments)

输出结果
[<Experiment: artifact_location='./mlruns/0', creation_time=None, experiment_id='0', last_update_time=None, lifecycle_stage='active', name='Default', tags={}>]

值得注意的是，search_experiments() API 的返回类型不是基本的集合结构。相反，它是一个 Experiment 对象的列表。MLflow 客户端 API 的许多返回值都返回包含与正在执行的任务关联的元数据属性的对象。这一点很重要，因为它使得执行更复杂的动作序列更加容易，这一点将在后续的教程中介绍。

通过返回的集合，我们可以使用列表推导式迭代这些对象，以访问 Default 实验的特定元数据属性。

为了熟悉访问 MLflow API 返回的集合中的元素，让我们提取 search_experiments() 查询中的 name 和 lifecycle_stage，并将这些属性提取到一个 dict 中。

default_experiment = [
    {"name": experiment.name, "lifecycle_stage": experiment.lifecycle_stage}
    for experiment in all_experiments
    if experiment.name == "Default"
][0]

pprint(default_experiment)

默认实验名称和阶段（字典格式）
{'name': 'Default', 'lifecycle_stage': 'active'}

运行它

Exploring the Default Experiment — 使用 MLflow 客户端的 search_experiments() API 查看默认实验

在下一步中，我们将创建我们的第一个实验，并深入了解可用的选项，这些选项提供了有助于跟踪相关实验的元数据信息，并组织实验中的运行，以便我们能够有效地比较不同训练运行参数的结果。

您现在可以继续教程的下一部分，或返回教程列表。

导入依赖项​

配置 MLflow 跟踪客户端​

默认实验​

搜索实验​

运行它​

导入依赖项

配置 MLflow 跟踪客户端

默认实验

搜索实验

运行它