MLflow 中的父子运行理解

简介

机器学习项目常常涉及复杂的关联。这些关联可能出现在项目的各个阶段，无论是项目构思、数据预处理、模型架构，还是模型调优过程。MLflow 提供了工具来有效地捕获和表示这些关联。

MLflow 的核心概念：标签、实验和运行

在我们基础的 MLflow 教程中，我们强调了一个基本关联：标签、实验和运行之间的关系。这种关联在处理复杂的 ML 项目时至关重要，例如我们示例中提出的超市中各个产品的预测模型。下图提供了一个可视化表示。

Tags, experiments, and runs relationships — 模型分组层级

关键方面

标签：它们对于定义业务级别的过滤键至关重要。它们有助于检索相关的实验及其运行。
实验：它们从业务和数据角度设定界限。例如，胡萝卜的销售数据在未经事先验证的情况下，不会用于预测苹果的销售。
运行：每次运行捕获一个特定的假设或训练迭代，并嵌套在实验的上下文中。

现实世界的挑战：超参数调优

虽然上述模型足以满足入门目的，但现实场景却带来了复杂性。其中一种复杂性出现在模型调优时。

模型调优至关重要。方法多种多样，从网格搜索（尽管由于效率低下通常不推荐）到随机搜索，以及更高级的自动化超参数调优方法。目标保持不变：最优地遍历模型的参数空间。

超参数调优的益处

损失指标关系：通过分析超参数与优化损失指标之间的关系，我们可以识别出可能不相关的参数。
参数空间分析：监控测试值的范围可以表明我们是否需要收紧或扩展搜索空间。
模型敏感性分析：估计模型对特定参数的反应可以 pinpoint 潜在的特征集问题。

但挑战就在于：如何系统地存储超参数调优过程中产生的海量数据？

Challenges with hyperparameter data storage — 存储超参数数据的难题

在接下来的章节中，我们将深入探讨 MLflow 在解决此挑战方面的能力，重点关注父子运行的概念。

什么是父子运行？

本质上，MLflow 允许用户跟踪实验，实验本质上是命名的运行组。在此上下文中，“运行”是指模型训练事件的单次执行，您可以在其中记录与训练过程相关的参数、指标、标签和构件。父子运行的概念为这些运行引入了分层结构。

设想一个场景，您正在测试具有不同架构的深度学习模型。每个架构都可以视为一个父运行，而该架构每次超参数调优的迭代都成为其各自父级下的子运行。

益处

组织清晰：通过使用父子运行，您可以轻松地将相关的运行分组在一起。例如，如果您正在对特定的模型架构使用贝叶斯方法运行超参数搜索，每次迭代都可以记录为子运行，而整体贝叶斯优化过程则可以是父运行。
增强的可追溯性：在具有广泛产品层级的大型项目中工作时，子运行可以代表单个产品或变体，从而可以轻松地将结果、指标或构件追溯到其特定的运行。
可扩展性：随着您的实验数量和复杂性的增加，拥有嵌套结构可确保您的跟踪保持可扩展性。导航结构化层级比导航数百或数千个运行的平面列表要容易得多。
改进协作：对于团队而言，这种方法可确保成员可以轻松理解其同行进行的实验的结构和流程，从而促进协作和知识共享。

实验、父运行和子运行之间的关系

实验：将实验视为最高层。它们是命名实体，所有相关的运行都位于其下。例如，名为“深度学习架构”的实验可能包含与您正在测试的各种架构相关的运行。
父运行：在实验中，父运行代表您工作流程的重要部分或阶段。以先前的示例为例，每种特定的架构（如 CNN、RNN 或 Transformer）都可以是一个父运行。
子运行：嵌套在父运行中是子运行。这些是父范围内的迭代或变体。对于 CNN 父运行，不同的超参数集或细微的架构调整都可以是子运行。

实际示例

在此示例中，让我们想象我们正在为一个特定的建模解决方案进行微调练习。我们正在进行初步的粗略调整阶段，尝试确定哪些参数范围和类别选择值可能用于具有更高迭代次数的完整超参数调优运行。

没有子运行的朴素方法

在第一阶段，我们将尝试相对较小的不同参数组合批次，并在 MLflow UI 中进行评估，以根据我们迭代试验之间的相对性能来确定是否应包含或排除某些值。

如果我们使用每次迭代作为自己的 MLflow 运行，我们的代码可能看起来像这样

python
import random
import mlflow
from functools import partial
from itertools import starmap
from more_itertools import consume


# Define a function to log parameters and metrics
def log_run(run_name, test_no):
    with mlflow.start_run(run_name=run_name):
        mlflow.log_param("param1", random.choice(["a", "b", "c"]))
        mlflow.log_param("param2", random.choice(["d", "e", "f"]))
        mlflow.log_metric("metric1", random.uniform(0, 1))
        mlflow.log_metric("metric2", abs(random.gauss(5, 2.5)))


# Generate run names
def generate_run_names(test_no, num_runs=5):
    return (f"run_{i}_test_{test_no}" for i in range(num_runs))


# Execute tuning function
def execute_tuning(test_no):
    # Partial application of the log_run function
    log_current_run = partial(log_run, test_no=test_no)
    # Generate run names and apply log_current_run function to each run name
    runs = starmap(
        log_current_run, ((run_name,) for run_name in generate_run_names(test_no))
    )
    # Consume the iterator to execute the runs
    consume(runs)


# Set the tracking uri and experiment
mlflow.set_tracking_uri("https://:8080")
mlflow.set_experiment("No Child Runs")

# Execute 5 hyperparameter tuning runs
consume(starmap(execute_tuning, ((x,) for x in range(5))))

执行此操作后，我们可以导航到 MLflow UI 以查看迭代结果，并将每次运行的错误指标与所选参数进行比较。

初始超参数调优执行

当我们再次需要以一些细微的修改来运行此操作时，会发生什么？

我们的代码可能会在原地更改，并测试其中的值

python
def log_run(run_name, test_no):
    with mlflow.start_run(run_name=run_name):
        mlflow.log_param("param1", random.choice(["a", "c"]))  # remove 'b'
        # remainder of code ...

当我们执行此操作并导航回 UI 时，现在要确定哪些运行结果与特定的参数分组相关联变得更加困难。对于此示例，由于特征相同且参数搜索空间是原始超参数测试的子集，因此并不特别成问题。

如果我们这样做，分析可能会变得非常严重

将术语添加到原始超参数搜索空间
修改特征数据（添加或删除特征）
更改底层模型架构（测试 1 是随机森林模型，而测试 2 是梯度提升树模型）

让我们看看 UI，看看是否清楚某个特定运行属于哪个迭代。

没有子运行封装的迭代调优的挑战

可以很容易地想象，如果此实验中有数千次运行，情况会变得多么复杂。

不过，对此有一个解决方案。我们可以设置完全相同的测试场景，并进行一些小的修改，以便于查找相关运行、使 UI 不那么杂乱，并大大简化评估超参数范围和参数包含的整个过程。只需进行少量修改即可

通过在父运行的上下文中添加嵌套的 start_run() 来使用子运行。
通过修改父运行的 run_name 来向运行添加区分信息
向父子运行添加标签信息，以便根据识别运行家族的键进行搜索

适应父子运行

下面的代码演示了对我们原始超参数调优示例的这些修改。

python
import random
import mlflow
from functools import partial
from itertools import starmap
from more_itertools import consume


# Define a function to log parameters and metrics and add tag
# logging for search_runs functionality
def log_run(run_name, test_no, param1_choices, param2_choices, tag_ident):
    with mlflow.start_run(run_name=run_name, nested=True):
        mlflow.log_param("param1", random.choice(param1_choices))
        mlflow.log_param("param2", random.choice(param2_choices))
        mlflow.log_metric("metric1", random.uniform(0, 1))
        mlflow.log_metric("metric2", abs(random.gauss(5, 2.5)))
        mlflow.set_tag("test_identifier", tag_ident)


# Generate run names
def generate_run_names(test_no, num_runs=5):
    return (f"run_{i}_test_{test_no}" for i in range(num_runs))


# Execute tuning function, allowing for param overrides,
# run_name disambiguation, and tagging support
def execute_tuning(
    test_no,
    param1_choices=["a", "b", "c"],
    param2_choices=["d", "e", "f"],
    test_identifier="",
):
    ident = "default" if not test_identifier else test_identifier
    # Use a parent run to encapsulate the child runs
    with mlflow.start_run(run_name=f"parent_run_test_{ident}_{test_no}"):
        # Partial application of the log_run function
        log_current_run = partial(
            log_run,
            test_no=test_no,
            param1_choices=param1_choices,
            param2_choices=param2_choices,
            tag_ident=ident,
        )
        mlflow.set_tag("test_identifier", ident)
        # Generate run names and apply log_current_run function to each run name
        runs = starmap(
            log_current_run, ((run_name,) for run_name in generate_run_names(test_no))
        )
        # Consume the iterator to execute the runs
        consume(runs)


# Set the tracking uri and experiment
mlflow.set_tracking_uri("https://:8080")
mlflow.set_experiment("Nested Child Association")

# Define custom parameters
param_1_values = ["x", "y", "z"]
param_2_values = ["u", "v", "w"]

# Execute hyperparameter tuning runs with custom parameter choices
consume(
    starmap(execute_tuning, ((x, param_1_values, param_2_values) for x in range(5)))
)

我们可以在 UI 中查看执行此操作的结果

当我们添加具有不同超参数选择标准条件的附加运行时，这种嵌套体系结构的真正优势会更加明显。

python
# Execute modified hyperparameter tuning runs with custom parameter choices
param_1_values = ["a", "b"]
param_2_values = ["u", "v", "w"]
ident = "params_test_2"
consume(
    starmap(
        execute_tuning, ((x, param_1_values, param_2_values, ident) for x in range(5))
    )
)

……甚至更多运行……

python
param_1_values = ["b", "c"]
param_2_values = ["d", "f"]
ident = "params_test_3"
consume(
    starmap(
        execute_tuning, ((x, param_1_values, param_2_values, ident) for x in range(5))
    )
)

执行完这三次调优运行测试后，我们就可以在 UI 中查看结果了

使用子运行封装测试

在上面的视频中，您可以看到我们特意避免将父运行包含在运行比较中。这是因为没有实际的指标或参数被写入这些父运行；相反，它们纯粹用于组织目的，以限制 UI 中可见的运行量。

实际上，最好将子运行的超参数执行中找到的最佳条件存储在父运行的数据中。

挑战

作为一项练习，如果您有兴趣，可以下载包含这两个示例的 notebook，并在其中修改代码以实现此目的。

下载 notebook

该 notebook 包含此实现的示例，但建议开发自己的实现，以满足以下要求

在父运行的信息中记录子运行的最低 metric1 值以及该子运行相关的参数。
添加指定迭代次数的能力，以确定从调用入口点创建的子运行的数量。

此挑战在 UI 中的结果如下所示。

将最佳子运行数据添加到父运行

结论

父子运行关联的使用可以大大简化迭代模型开发。对于超参数调优等重复性高、数据量大的任务，封装训练运行的参数搜索空间或特征工程评估运行可以帮助确保您比较的是您打算比较的内容，而且只需付出最小的努力。

简介​

MLflow 的核心概念：标签、实验和运行​

关键方面​

现实世界的挑战：超参数调优​

超参数调优的益处​

什么是父子运行？​

益处​

实验、父运行和子运行之间的关系​

实际示例​

没有子运行的朴素方法​

适应父子运行​

挑战​

结论​

简介