MLflow 跟踪的自动日志记录

自动日志记录是一项强大的功能，它允许您在无需显式日志语句的情况下记录指标、参数和模型。您需要做的就是在训练代码之前调用 mlflow.autolog()。

python
import mlflow

mlflow.autolog()

with mlflow.start_run():
    # your training code goes here
    ...

这将使 MLflow 能够自动记录运行的各种信息，包括

指标 - MLflow 根据您使用的模型和库预先选择要记录的一组指标
参数 - 训练指定的超参数，以及库提供的默认值（如果未显式设置）
模型签名 - 记录模型签名实例，该实例描述了模型的输入和输出模式
构件 - 例如模型检查点
数据集 - 用于训练的数据集对象（如果适用），例如 tensorflow.data.Dataset

入门指南

步骤 1 - 获取 MLflow

MLflow 在 PyPI 上可用。如果您尚未在系统上安装它，可以使用以下命令进行安装：

bash
pip install mlflow

步骤 2 - 在代码中插入 `mlflow.autolog`

例如，以下代码片段展示了如何为 scikit-learn 模型启用自动日志记录

python
import mlflow

from sklearn.model_selection import train_test_split
from sklearn.datasets import load_diabetes
from sklearn.ensemble import RandomForestRegressor

mlflow.autolog()

db = load_diabetes()
X_train, X_test, y_train, y_test = train_test_split(db.data, db.target)

rf = RandomForestRegressor(n_estimators=100, max_depth=6, max_features=3)
# MLflow triggers logging automatically upon model fitting
rf.fit(X_train, y_train)

步骤 3 - 执行您的代码

bash
python YOUR_ML_CODE.py

步骤 4 - 在 MLflow UI 中查看您的结果

训练作业完成后，您可以运行以下命令启动 MLflow UI

bash
mlflow server --port 8080

然后，在浏览器中导航到 https://:8080 查看结果。

自定义自动日志记录行为

您还可以通过向 mlflow.autolog() 函数传递参数来控制自动日志记录的行为。例如，您可以禁用模型检查点的日志记录，并将标签与您的运行相关联，如下所示

python
import mlflow

mlflow.autolog(
    log_model_signatures=False,
    extra_tags={"YOUR_TAG": "VALUE"},
)

请参阅 mlflow.autolog() 以获取可用的完整参数集。

为特定库启用/禁用自动日志记录

一种常见的用例是为特定库启用/禁用自动日志记录。例如，如果您在 PyTorch 上训练模型，但使用 scikit-learn 进行数据预处理，您可能希望为 scikit-learn 禁用自动日志记录，同时为 PyTorch 启用它。您可以通过以下方式实现此目的：(1) 使用 PyTorch 插件仅为 PyTorch 启用自动日志记录 (2) 使用 scikit-learn 插件并设置 disable=True 来为 scikit-learn 禁用自动日志记录。

python
import mlflow

# Option 1: Enable autologging only for PyTorch
mlflow.pytorch.autolog()

# Option 2: Disable autologging for scikit-learn, but enable it for other libraries
mlflow.sklearn.autolog(disable=True)
mlflow.autolog()

支持的库

注意

通用的自动日志记录函数 mlflow.autolog() 会在您安装的每个支持的库被导入后立即为其启用自动日志记录。或者，您可以使用特定于库的自动日志记录调用，例如 mlflow.pytorch.autolog() 来显式启用（或禁用）特定库的自动日志记录。

以下列表涵盖了 MLflow 中支持自动日志记录的最流行的库

Keras/TensorFlow
LightGBM
Paddle
PySpark
PyTorch
Scikit-learn
Spark
Statsmodels
XGBoost

注意

还有许多其他集成支持自动日志记录，并且支持的库列表正在不断增长。请参阅专门页面，以获取有关特定库是否支持自动日志记录的进一步指导。

对于自动将模型保存为构件的插件，会记录用于依赖项管理的其他文件。

Keras/TensorFlow

在训练代码之前调用通用的自动日志记录函数或 mlflow.tensorflow.autolog() 来启用指标和参数的自动日志记录。例如，尝试运行 Keras/Tensorflow 示例。

请注意，仅支持 tensorflow>=2.3 的版本。tf.estimator 和 EarlyStopping 的相关指标会自动记录。例如，尝试运行 Keras/TensorFlow 示例。

自动日志记录捕获以下信息

框架	指标	参数	标签	工件
`tf.keras`	训练损失；验证损失；用户指定的指标	`fit()` 参数；优化器名称；学习率；epsilon	--	训练开始时的模型摘要；MLflow 模型（Keras 模型）；训练结束时的 TensorBoard 日志
`tf.keras.callbacks.EarlyStopping`	来自 `EarlyStopping` 回调的指标。例如，`stopped_epoch`、`restored_epoch`、`restore_best_weight` 等	来自 `EarlyStopping` 的 `fit()` 参数。例如，`min_delta`、`patience`、`baseline`、`restore_best_weights` 等	--	--

如果 autolog() 捕获数据时没有活动的运行，MLflow 将自动创建一个运行来记录信息。此外，MLflow 将在训练结束时通过调用 tf.keras.fit() 自动结束该运行。

如果 autolog() 捕获数据时已存在运行，MLflow 将记录到该运行，但不会在训练后自动结束该运行。如果您想开始一个新的运行上下文以记录到新的运行，则必须手动停止运行。

LightGBM

在训练代码之前调用通用的自动日志记录函数 mlflow.lightgbm.autolog() 来启用指标和参数的自动日志记录。

自动日志记录捕获以下信息

框架	指标	参数	标签	工件
LightGBM	用户指定的指标	lightgbm.train 参数	--	训练结束时的MLflow 模型（LightGBM 模型）以及模型签名、特征重要性、输入示例；

如果启用了早停，将作为额外步骤/迭代记录最佳迭代时的指标。

Paddle

在训练代码之前调用通用的自动日志记录函数 mlflow.paddle.autolog() 来启用指标和参数的自动日志记录。

自动日志记录捕获以下信息

框架	指标	参数	标签	工件
Paddle	用户指定的指标	paddle.Model.fit 参数	--	训练结束时的MLflow 模型（Paddle 模型）以及模型签名

PySpark

在训练代码之前调用 mlflow.pyspark.ml.autolog() 来启用指标、参数和模型的自动日志记录。请参阅 PySpark 的示例用法。

pyspark ml 估计器的自动日志记录捕获以下信息

指标	参数	标签	工件
通过 `Evaluator.evaluate` 获得的训练后指标	通过 `Estimator.fit` 获得的参数	类名完全限定的类名	包含已拟合估计器的MLflow 模型用于训练后指标的 `metric_info.json`

PyTorch

在 PyTorch Lightning 训练代码之前调用通用的自动日志记录函数 mlflow.pytorch.autolog() 来启用指标、参数和模型的自动日志记录。请参阅此处的示例用法。请注意，目前 PyTorch 自动日志记录仅支持使用 PyTorch Lightning 训练的模型。

自动日志记录在调用 pytorch_lightning.trainer.Trainer.fit 时触发，并捕获以下信息

框架/模块	指标	参数	标签	工件
`pytorch_lightning.trainer.Trainer`	训练损失；验证损失；平均测试准确率；用户定义的指标	`fit()` 参数；优化器名称；学习率；epsilon。	--	训练开始时的模型摘要，训练结束时的MLflow 模型（PyTorch 模型）；
`pytorch_lightning.callbacks.earlystopping`	训练损失；验证损失；平均测试准确率；用户定义的指标。来自 `EarlyStopping` 回调的指标。例如，`spotted_epoch`、`restored_epoch`、`restore_best_weight` 等	`fit()` 参数；优化器名称；学习率；epsilon。来自 `EarlyStopping` 回调的参数。例如，`min_delta`、`patience`、`baseline`、`restore_best_weights` 等	--	训练开始时的模型摘要；训练结束时的MLflow 模型（PyTorch 模型）；如果训练因早停回调而停止，则最佳 PyTorch 模型检查点。

如果 autolog() 捕获数据时没有活动的运行，MLflow 将自动创建一个运行来记录信息，并在调用 pytorch_lightning.trainer.Trainer.fit() 完成后结束该运行。

如果 autolog() 捕获数据时已存在运行，MLflow 将记录到该运行，但不会在训练后自动结束该运行。

注意

使用 pytorch_lightning.trainer.Trainer.fit() 时，用户未显式传递的参数（使用默认值的参数）目前不会自动记录
在多优化器场景（例如自编码器）中，仅记录第一个优化器的参数

Scikit-learn

在训练代码之前调用 mlflow.sklearn.autolog() 来启用 sklearn 指标、参数和模型的自动日志记录。请参阅此处的示例用法。

对于估计器（例如 LinearRegression）和元估计器（例如 Pipeline）的自动日志记录会创建一个单独的运行并记录

指标	参数	标签	工件
通过 `estimator.score` 获得的训练分数	通过 `estimator.get_params` 获得的参数	类名完全限定的类名	已拟合的估计器

对于参数搜索估计器（例如 GridSearchCV）的自动日志记录会创建一个单独的父运行和嵌套的子运行

text
- Parent run
  - Child run 1
  - Child run 2
  - ...

包含以下数据

运行类型	指标	参数	标签	工件
父级	训练分数	参数搜索估计器的参数最佳参数组合	类名完全限定的类名	已拟合的参数搜索估计器已拟合的最佳估计器搜索结果 csv 文件
子级	每个参数组合的 CV 测试分数	每个参数组合	类名完全限定的类名	--

Spark

初始化一个 SparkSession 并附加 mlflow-spark JAR（例如，SparkSession.builder.config("spark.jars.packages", "org.mlflow.mlflow-spark")），然后调用通用的自动日志记录函数 mlflow.spark.autolog() 来在读取时启用 Spark 数据源信息的自动日志记录，无需显式日志语句。请注意，Spark ML (MLlib) 模型的自动日志记录尚不支持。

自动日志记录捕获以下信息

框架	指标	参数	标签	工件
Spark	--	--	包含源路径、版本、格式的单个标签。标签包含每行一个数据源	--

注意

此外，Spark 数据源的自动日志记录是异步进行的——因此，在启动短暂的 MLflow 运行时可能会（尽管不太可能）出现竞态条件，导致数据源信息未被记录。

重要提示

对于 Pyspark 3.2.0 或更高版本，Spark 数据源的自动日志记录需要将 PYSPARK_PIN_THREAD 环境变量设置为 false。

Statsmodels

在训练代码之前调用通用的自动日志记录函数 mlflow.statsmodels.autolog() 来启用指标和参数的自动日志记录。

自动日志记录捕获以下信息

框架	指标	参数	标签	工件
Statsmodels	用户指定的指标	statsmodels.base.model.Model.fit 参数	--	训练结束时的MLflow 模型（statsmodels.base.wrapper.ResultsWrapper）

注意

每个覆盖 fit 的模型子类都会期望并记录其自身的参数。

XGBoost

在训练代码之前调用通用的自动日志记录函数 mlflow.xgboost.autolog() 来启用指标和参数的自动日志记录。

自动日志记录捕获以下信息

框架	指标	参数	标签	工件
XGBoost	用户指定的指标	xgboost.train 参数	--	训练结束时的MLflow 模型（XGBoost 模型）以及模型签名、特征重要性、输入示例

如果启用了早停，将作为额外步骤/迭代记录最佳迭代时的指标。

入门指南​

步骤 1 - 获取 MLflow​

步骤 2 - 在代码中插入 mlflow.autolog​

步骤 3 - 执行您的代码​

步骤 4 - 在 MLflow UI 中查看您的结果​

自定义自动日志记录行为​

为特定库启用/禁用自动日志记录​

支持的库​

Keras/TensorFlow​

LightGBM​

Paddle​

PySpark​

PyTorch​

Scikit-learn​

Spark​

Statsmodels​

XGBoost​

入门指南

步骤 1 - 获取 MLflow

步骤 2 - 在代码中插入 `mlflow.autolog`

步骤 3 - 执行您的代码

步骤 4 - 在 MLflow UI 中查看您的结果

自定义自动日志记录行为

为特定库启用/禁用自动日志记录

支持的库

Keras/TensorFlow

LightGBM

Paddle

PySpark

PyTorch

Scikit-learn

Spark

Statsmodels

XGBoost