定制模型的 predict 方法

在本教程中，我们将探讨在 MLflow 的 PyFunc 风格下定制模型 predict 方法的过程。当您希望在 MLflow 部署模型后对其行为有更强的灵活性时，这将特别有用。

为了说明这一点，我们将使用著名的 Iris 数据集，并使用 scikit-learn 构建一个基本的 Logistic Regression 模型。

python
from joblib import dump
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

import mlflow
from mlflow.models import infer_signature
from mlflow.pyfunc import PythonModel

配置跟踪服务器 URI

此步骤很重要，可确保我们在此笔记本中进行的所有 MLflow 调用都能实际记录到我们本地运行的跟踪服务器。

如果您正在不同的环境中按照此笔记本进行操作，并且希望在此笔记本的其余部分执行到远程跟踪服务器，请更改以下单元格。

Databricks: mlflow.set_tracking_uri("databricks")

您的托管 MLflow: mlflow.set_tracking_uri("http://my.company.mlflow.tracking.server:<port>)

您的本地跟踪服务器如导言教程所述，我们可以通过命令行启动本地跟踪服务器，如下所示

bash
mlflow server --host 127.0.0.1 --port 8080

并且可以通过以下方式在本地启动 MLflow UI 服务器

bash
mlflow server --host 127.0.0.1 --port 8090

python
mlflow.set_tracking_uri("https://:8080")

让我们首先加载 Iris 数据集并将其拆分为训练集和测试集。然后，我们将在训练数据上训练一个简单的 Logistic Regression 模型。

python
iris = load_iris()
x = iris.data[:, 2:]
y = iris.target

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=9001)

model = LogisticRegression(random_state=0, max_iter=5_000, solver="newton-cg").fit(x_train, y_train)

这是机器学习中的一个常见场景。我们有一个已训练的模型，并希望使用它来进行预测。使用 scikit-learn，模型提供了几个方法来执行此操作

predict - 预测类标签
predict_proba - 获取类成员概率
predict_log_proba - 获取每个类的对数概率

我们可以预测类标签，如下所示。

python
model.predict(x_test)[:5]

array([1, 2, 2, 1, 0])

我们还可以获取类成员概率。

python
model.predict_proba(x_test)[:5]

array([[2.64002987e-03, 6.62306827e-01, 3.35053144e-01],
     [1.24429110e-04, 8.35485037e-02, 9.16327067e-01],
     [1.30646549e-04, 1.37480519e-01, 8.62388835e-01],
     [3.70944840e-03, 7.13202611e-01, 2.83087941e-01],
     [9.82629868e-01, 1.73700532e-02, 7.88350143e-08]])

以及生成每个类的对数概率。

python
model.predict_log_proba(x_test)[:5]

array([[ -5.93696505,  -0.41202635,  -1.09346612],
     [ -8.99177441,  -2.48232793,  -0.08738192],
     [ -8.94301498,  -1.98427305,  -0.14804903],
     [ -5.59687209,  -0.33798973,  -1.26199768],
     [ -0.01752276,  -4.05300763, -16.35590859]])

虽然在同一 Python 会话中直接使用模型很简单，但当我们想保存此模型并在其他地方加载它时（尤其是在使用 MLflow 的 PyFunc 风格时）会发生什么？让我们探讨一下这种情况。

python
mlflow.set_experiment("Overriding Predict Tutorial")

sklearn_path = "/tmp/sklearn_model"

with mlflow.start_run() as run:
  mlflow.sklearn.save_model(
      sk_model=model,
      path=sklearn_path,
      input_example=x_train[:2],
  )

/Users/benjamin.wilson/miniconda3/envs/mlflow-dev-env/lib/python3.8/site-packages/_distutils_hack/__init__.py:30: UserWarning: Setuptools is replacing distutils.
warnings.warn("Setuptools is replacing distutils.")

一旦模型以 pyfunc 形式加载，默认行为仅支持 predict 方法。当您尝试调用 predict_proba 等其他方法时，会引发 AttributeError，这证明了这一点。这可能很受限制，尤其是在您希望保留原始模型的全部功能时。

python
loaded_logreg_model = mlflow.pyfunc.load_model(sklearn_path)

python
loaded_logreg_model.predict(x_test)

array([1, 2, 2, 1, 0, 1, 2, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 1, 1, 2, 1,
     1, 0, 1, 1, 0, 0, 1, 2])

这正如我们所期望的那样工作。输出与保存前直接使用模型的结果相同。

让我们尝试使用 predict_proba 方法。

我们实际上不会运行它，因为它会引发异常。如果我们尝试执行此操作，将发生以下情况

python
loaded_logreg_model.predict_proba(x_text)

这将导致此错误

shell
---------------------------------------------------------------------------
AttributeError                            Traceback (most recent call last)
/var/folders/cd/n8n0rm2x53l_s0xv_j_xklb00000gp/T/ipykernel_15410/1677830262.py in <cell line: 1>()
----> 1 loaded_logreg_model.predict_proba(x_text)

AttributeError: 'PyFuncModel' object has no attribute 'predict_proba'

我们该如何支持模型部署后的原始行为？

我们可以创建一个自定义 pyfunc，它将覆盖 predict 方法的行为。

在下面的示例中，我们将展示 pyfunc 的两个功能，这些功能可用于处理自定义模型日志记录功能

覆盖 predict 方法
自定义加载工件

一个关键点是使用 joblib 进行序列化。虽然 pickle 传统上用于序列化 scikit-learn 模型，但现在推荐使用 joblib，因为它提供了更好的性能和支持，尤其适用于大型 numpy 数组。

我们将使用 joblib 及其 dump 和 load API 来处理将我们的模型对象加载到自定义 pyfunc 实现中。当实例化 pyfunc 对象时，使用 load_context 方法处理文件加载的过程对于具有非常大或众多工件依赖项（如 LLM）的模型特别有用，并且可以帮助显着减少在分布式系统（如 Apache Spark 或 Ray）中加载的 pyfunc 的总内存占用。

python
from joblib import dump

from mlflow.models import infer_signature
from mlflow.pyfunc import PythonModel

为了了解如何利用自定义 Python Model 中的 load_context 功能，我们将首先在本地使用 joblib 序列化我们的模型。此处使用 joblib 纯粹是为了演示一种非标准方法（一种 MLflow 不原生支持的方法），以说明 Python Model 实现的灵活性。前提是我们要在 load_context 中导入此库，并在加载此模型的环境中提供它，模型工件将正确地反序列化。

python
model_directory = "/tmp/sklearn_model.joblib"
dump(model, model_directory)

['/tmp/sklearn_model.joblib']

定义我们的自定义 `PythonModel`

下面的 ModelWrapper 类是一个自定义 pyfunc 的示例，它扩展了 MLflow 的 PythonModel。它通过使用 predict 方法的 params 参数提供了预测方法的灵活性。这样，我们就可以在调用已加载的 pyfunc 实例的 predict 方法时指定是要 regular predict、predict_proba 还是 predict_log_proba 行为。

python
class ModelWrapper(PythonModel):
  def __init__(self):
      self.model = None

  def load_context(self, context):
      from joblib import load

      self.model = load(context.artifacts["model_path"])

  def predict(self, context, model_input, params=None):
      params = params or {"predict_method": "predict"}
      predict_method = params.get("predict_method")

      if predict_method == "predict":
          return self.model.predict(model_input)
      elif predict_method == "predict_proba":
          return self.model.predict_proba(model_input)
      elif predict_method == "predict_log_proba":
          return self.model.predict_log_proba(model_input)
      else:
          raise ValueError(f"The prediction method '{predict_method}' is not supported.")

定义自定义 pyfunc 后，下一步是使用 MLflow 保存模型，然后将其加载回来。加载的模型将保留我们在自定义 pyfunc 中构建的灵活性，允许我们动态选择预测方法。

注意：下面的 artifacts 引用非常重要。为了让 load_context 能够访问我们指定的已保存模型位置的路径，必须将其提供为一个字典，该字典将适当的访问键映射到相关值。如果未将此字典作为 mlflow.save_model() 或 mlflow.log_model() 的一部分提供，则此自定义 pyfunc 模型将无法正确加载。

python
# Define the required artifacts associated with the saved custom pyfunc
artifacts = {"model_path": model_directory}

# Define the signature associated with the model
signature = infer_signature(x_train, params={"predict_method": "predict_proba"})

我们可以看到定义的 params 在签名定义中的使用方式。如下所示，params 在登录时会略有修改。我们有一个定义的参数键 (predict_method)，预期的类型 (string) 和默认值。这对 params 定义的最终含义是

我们只能为 predict_method 键提供 params 覆盖。任何其他内容都将被忽略，并显示警告，指示未知参数不会传递给底层模型。
与 predict_method 关联的值必须是字符串。任何其他类型都不允许，并且将引发意外类型的异常。
如果在调用 predict 时未提供 predict_method 的值，模型将使用 predict_proba 的默认值。

python
signature

inputs: 
[Tensor('float64', (-1, 2))]
outputs: 
None
params: 
['predict_method': string (default: predict_proba)]

我们现在可以保存我们的自定义模型。我们提供了一个保存路径，以及包含我们通过 joblib 手动序列化实例的 artifacts 定义。还包括 signature，这是一个让此示例工作的**关键组件**；如果没有在签名中定义参数，我们就无法覆盖 predict 方法将使用的预测方法。

请注意，我们在此处覆盖了 pip_requirements，以确保我们为两个依赖库：joblib 和 sklearn 指定了要求。这有助于确保我们部署此模型的任何环境在加载此已保存模型之前都会预加载这两个依赖项。

python
pyfunc_path = "/tmp/dynamic_regressor"

with mlflow.start_run() as run:
  mlflow.pyfunc.save_model(
      path=pyfunc_path,
      python_model=ModelWrapper(),
      input_example=x_train,
      signature=signature,
      artifacts=artifacts,
      pip_requirements=["joblib", "sklearn"],
  )

Downloading artifacts:   0%|          | 0/1 [00:00<?, ?it/s]

我们现在可以使用 mlflow.pyfunc.load_model API 将模型加载回来。

python
loaded_dynamic = mlflow.pyfunc.load_model(pyfunc_path)

让我们看看没有 params 参数覆盖的情况下，pyfunc 模型会产生什么。

python
loaded_dynamic.predict(x_test)

array([[2.64002987e-03, 6.62306827e-01, 3.35053144e-01],
     [1.24429110e-04, 8.35485037e-02, 9.16327067e-01],
     [1.30646549e-04, 1.37480519e-01, 8.62388835e-01],
     [3.70944840e-03, 7.13202611e-01, 2.83087941e-01],
     [9.82629868e-01, 1.73700532e-02, 7.88350143e-08],
     [6.54171552e-03, 7.54211950e-01, 2.39246334e-01],
     [2.29127680e-06, 1.29261337e-02, 9.87071575e-01],
     [9.71364952e-01, 2.86348857e-02, 1.62618524e-07],
     [3.36988442e-01, 6.61070371e-01, 1.94118691e-03],
     [9.81908726e-01, 1.80911360e-02, 1.38374097e-07],
     [9.70783357e-01, 2.92164276e-02, 2.15395762e-07],
     [6.54171552e-03, 7.54211950e-01, 2.39246334e-01],
     [1.06968794e-02, 8.88253152e-01, 1.01049969e-01],
     [3.35084116e-03, 6.57732340e-01, 3.38916818e-01],
     [9.82272901e-01, 1.77269948e-02, 1.04445227e-07],
     [9.82629868e-01, 1.73700532e-02, 7.88350143e-08],
     [1.62626101e-03, 5.43474542e-01, 4.54899197e-01],
     [9.82629868e-01, 1.73700532e-02, 7.88350143e-08],
     [5.55685308e-03, 8.02036140e-01, 1.92407007e-01],
     [1.01733783e-02, 8.62455340e-01, 1.27371282e-01],
     [1.43317140e-08, 1.15653085e-03, 9.98843455e-01],
     [4.33536629e-02, 9.32351526e-01, 2.42948113e-02],
     [3.97007654e-02, 9.08506559e-01, 5.17926758e-02],
     [9.19762712e-01, 8.02357267e-02, 1.56085268e-06],
     [4.21970838e-02, 9.26463030e-01, 3.13398863e-02],
     [3.13635521e-02, 9.17295925e-01, 5.13405229e-02],
     [9.77454643e-01, 2.25452265e-02, 1.30412321e-07],
     [9.71364952e-01, 2.86348857e-02, 1.62618524e-07],
     [3.23802803e-02, 9.27626313e-01, 3.99934070e-02],
     [1.21876019e-06, 1.79695714e-02, 9.82029210e-01]])

果然，它返回了 params predict_method 的默认值，即 predict_proba。现在我们可以尝试覆盖该功能以返回类预测。

python
loaded_dynamic.predict(x_test, params={"predict_method": "predict"})

array([1, 2, 2, 1, 0, 1, 2, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 1, 1, 2, 1,
     1, 0, 1, 1, 0, 0, 1, 2])

我们也可以覆盖它以返回 predict_log_proba 类成员的对数概率。

python
loaded_dynamic.predict(x_test, params={"predict_method": "predict_log_proba"})

array([[-5.93696505e+00, -4.12026346e-01, -1.09346612e+00],
     [-8.99177441e+00, -2.48232793e+00, -8.73819177e-02],
     [-8.94301498e+00, -1.98427305e+00, -1.48049026e-01],
     [-5.59687209e+00, -3.37989732e-01, -1.26199768e+00],
     [-1.75227629e-02, -4.05300763e+00, -1.63559086e+01],
     [-5.02955584e+00, -2.82081850e-01, -1.43026157e+00],
     [-1.29864013e+01, -4.34850415e+00, -1.30127244e-02],
     [-2.90530299e-02, -3.55312953e+00, -1.56318587e+01],
     [-1.08770665e+00, -4.13894984e-01, -6.24445569e+00],
     [-1.82569224e-02, -4.01233318e+00, -1.57933050e+01],
     [-2.96519488e-02, -3.53302414e+00, -1.53507887e+01],
     [-5.02955584e+00, -2.82081850e-01, -1.43026157e+00],
     [-4.53780322e+00, -1.18498496e-01, -2.29214015e+00],
     [-5.69854387e+00, -4.18957208e-01, -1.08200058e+00],
     [-1.78861062e-02, -4.03266667e+00, -1.60746030e+01],
     [-1.75227629e-02, -4.05300763e+00, -1.63559086e+01],
     [-6.42147176e+00, -6.09772414e-01, -7.87679430e-01],
     [-1.75227629e-02, -4.05300763e+00, -1.63559086e+01],
     [-5.19272332e+00, -2.20601610e-01, -1.64814232e+00],
     [-4.58798095e+00, -1.47971911e-01, -2.06064898e+00],
     [-1.80607910e+01, -6.76233040e+00, -1.15721450e-03],
     [-3.13836408e+00, -7.00453618e-02, -3.71749248e+00],
     [-3.22638481e+00, -9.59531718e-02, -2.96050653e+00],
     [-8.36395634e-02, -2.52278639e+00, -1.33702783e+01],
     [-3.16540417e+00, -7.63811370e-02, -3.46286367e+00],
     [-3.46210882e+00, -8.63251488e-02, -2.96927492e+00],
     [-2.28033892e-02, -3.79223192e+00, -1.58525647e+01],
     [-2.90530299e-02, -3.55312953e+00, -1.56318587e+01],
     [-3.43020568e+00, -7.51263075e-02, -3.21904066e+00],
     [-1.36176765e+01, -4.01907543e+00, -1.81342258e-02]])

我们已成功创建了一个 pyfunc 模型，该模型保留了原始 scikit-learn 模型的全部功能，同时使用了自定义加载器方法，该方法避开了标准的 pickle 方法。

本教程强调了 MLflow PyFunc 风格的强大功能和灵活性，展示了如何根据您的具体需求对其进行定制。在继续构建和部署模型时，请考虑如何使用自定义 pyfunc 来增强模型的强大功能并适应各种场景。

配置跟踪服务器 URI​

我们该如何支持模型部署后的原始行为？​

定义我们的自定义 PythonModel​

配置跟踪服务器 URI

我们该如何支持模型部署后的原始行为？

定义我们的自定义 `PythonModel`