跳到主要内容

使用本地数据库跟踪实验

在本教程中,您将学习如何使用本地数据库来跟踪 MLflow 的实验元数据。

默认情况下,MLflow Tracking 会将运行数据写入本地文件,这可能会因分散的小文件和缺乏简单的访问接口而导致一些问题。此外,如果您使用的是 Python,您可以使用在本地文件系统上运行的 SQLite (例如 mlruns.db),并且它有一个内置的客户端 sqlite3,从而无需安装任何额外的依赖项和设置数据库服务器。

步骤 1. 获取 MLflow

MLflow 在 PyPI 上可用。如果您尚未在本地计算机上安装它,可以使用以下命令安装:

pip install mlflow

步骤 2. 配置 MLflow 以记录到 SQLite 数据库

要将 MLflow 指向您的本地 SQLite 数据库,您需要设置环境变量 MLFLOW_TRACKING_URI(例如,sqlite:///mlruns.db)。 这将在当前目录中创建一个 SQLite 数据库文件 (mlruns.db)。 如果要将数据库文件存储在不同的位置,请指定不同的路径。

export MLFLOW_TRACKING_URI=sqlite:///mlruns.db

如果您在 notebook 中,请运行以下单元格:

%env MLFLOW_TRACKING_URI=sqlite:///mlruns.db
注意

对于使用 SQLite 数据库,如果数据库不存在,MLflow 会自动创建一个新数据库。 如果要使用不同的数据库,需要先创建数据库。

步骤 3. 开始记录

现在您可以开始记录您的实验运行。 例如,以下代码在糖尿病数据集上运行 scikit-learn RandomForest 模型的训练

import mlflow

from sklearn.model_selection import train_test_split
from sklearn.datasets import load_diabetes
from sklearn.ensemble import RandomForestRegressor

mlflow.sklearn.autolog()

db = load_diabetes()
X_train, X_test, y_train, y_test = train_test_split(db.data, db.target)

# Create and train models.
rf = RandomForestRegressor(n_estimators=100, max_depth=6, max_features=3)
rf.fit(X_train, y_train)

# Use the model to make predictions on the test dataset.
predictions = rf.predict(X_test)

步骤 4. 在 Tracking UI 中查看您记录的运行

一旦您的训练作业完成,您可以运行以下命令来启动 MLflow UI(您需要使用 --backend-store-uri 选项指定 SQLite 数据库文件的路径)

mlflow ui --port 8080 --backend-store-uri sqlite:///mlruns.db

然后,在浏览器中导航到 https://:8080 以查看结果。

下一步是什么?

您现在已经学习了如何将 MLflow Tracking 与远程存储和数据库连接起来。

您可以探索一些更高级的主题