mlflow.xgboost
The mlflow.xgboost 模块提供了一个用于记录和加载 XGBoost 模型的 API。该模块以以下形式导出 XGBoost 模型:
- XGBoost(原生)格式
这是可以加载回 XGBoost 的主要形式。
mlflow.pyfuncProduced for use by generic pyfunc-based deployment tools and batch inference.
- mlflow.xgboost.autolog(importance_types=None, log_input_examples=False, log_model_signatures=True, log_models=True, log_datasets=True, disable=False, exclusive=False, disable_for_unsupported_versions=False, silent=False, registered_model_name=None, model_format='ubj', extra_tags=None)[source]
注意
已知自动日志记录与以下软件包版本兼容:
2.1.0<=xgboost<=3.1.3。在超出此范围的软件包版本中使用时,自动日志记录可能不会成功。启用(或禁用)并配置从 XGBoost 到 MLflow 的自动日志记录。记录以下内容
在 xgboost.train 中指定的参数。
每个迭代的指标(如果指定了
evals)。最佳迭代时的指标(如果指定了
early_stopping_rounds)。特征重要性作为 JSON 文件和图表。
- 训练好的模型,包括
一个有效输入的示例。
推断出的模型输入和输出的签名。
请注意,scikit-learn API 现在受支持。
- 参数
importance_types – 要记录的重要性类型。如果未指定,则默认为
["weight"]。log_input_examples – 如果为
True,则在训练期间收集并与 XGBoost 模型工件一起记录来自训练数据集的输入示例。如果为False,则不记录输入示例。注意:输入示例是 MLflow 模型属性,仅在log_models也为True时才收集。log_model_signatures – 如果为
True,则在训练期间收集并与 XGBoost 模型工件一起记录描述模型输入和输出的ModelSignatures。如果为False,则不记录签名。注意:模型签名是 MLflow 模型属性,仅在log_models也为True时才收集。log_models – 如果为
True,则训练好的模型将作为 MLflow 模型工件进行记录。如果为False,则不记录训练好的模型。输入样本和模型签名(MLflow 模型的属性)在log_models为False时也会被省略。log_datasets – 如果为
True,则将训练和验证数据集信息记录到 MLflow Tracking(如果适用)。如果为False,则不记录数据集信息。disable – 如果为
True,则禁用 XGBoost 自动日志集成。如果为False,则启用 XGBoost 自动日志集成。exclusive – 如果为
True,则自动记录的内容不会记录到用户创建的流畅运行中。如果为False,则自动记录的内容将记录到活动的流畅运行中,该运行可能是用户创建的。disable_for_unsupported_versions – 如果为
True,则禁用与此版本的 MLflow 客户端未经测试或不兼容的 xgboost 版本的自动日志记录。silent – 如果为
True,则在 XGBoost 自动日志记录期间抑制来自 MLflow 的所有事件日志和警告。如果为False,则在 XGBoost 自动日志记录期间显示所有事件和警告。registered_model_name – If given, each time a model is trained, it is registered as a new model version of the registered model with this name. The registered model is created if it does not already exist.
model_format – 要保存模型的文件格式。默认为“ubj”(UBJSON),这是获得最佳性能和跨平台兼容性的推荐格式。也支持“json”和“xgb”格式。
extra_tags – 要为自动日志记录创建的每个托管运行设置的额外标签的字典。
- mlflow.xgboost.get_default_conda_env()[source]
- 返回
调用
save_model()和log_model()生成的 MLflow 模型的默认 Conda 环境。
- mlflow.xgboost.get_default_pip_requirements()[source]
- 返回
此形式生成的 MLflow 模型的默认 pip 需求列表。调用
save_model()和log_model()生成的 pip 环境至少包含这些需求。
- mlflow.xgboost.load_model(model_uri, dst_path=None)[source]
从本地文件或运行中加载 XGBoost 模型。
- 参数
model_uri –
MLflow 模型在 URI 格式中的位置。例如:
/Users/me/path/to/local/modelrelative/path/to/local/models3://my_bucket/path/to/modelruns:/<mlflow_run_id>/run-relative/path/to/model
有关支持的 URI 方案的更多信息,请参阅 引用 Artifacts。
dst_path – The local filesystem path to which to download the model artifact. This directory must already exist. If unspecified, a local output path will be created.
- 返回
一个 XGBoost 模型。根据保存的模型类规范,是 xgboost.Booster 或实现 XGBoost scikit-learn API 的模型的实例。
- mlflow.xgboost.log_model(xgb_model, artifact_path: str | None = None, conda_env=None, code_paths=None, registered_model_name=None, signature: mlflow.models.signature.ModelSignature = None, input_example: Union[pandas.core.frame.DataFrame, numpy.ndarray, dict, list, csr_matrix, csc_matrix, str, bytes, tuple] = None, await_registration_for=300, pip_requirements=None, extra_pip_requirements=None, model_format='ubj', metadata=None, name: str | None = None, params: dict[str, typing.Any] | None = None, tags: dict[str, typing.Any] | None = None, model_type: str | None = None, step: int = 0, model_id: str | None = None, **kwargs)[source]
将 XGBoost 模型作为 MLflow 工件记录到当前运行中。
- 参数
xgb_model – 要保存的 XGBoost 模型(xgboost.Booster 的实例或实现scikit-learn API 的模型)。
artifact_path – Deprecated. Use name instead.
conda_env –
Conda 环境的字典表示形式或本地文件系统上 conda 环境 yaml 文件的路径。如果提供,它描述了模型应运行的环境。至少应指定 get_default_conda_env() 中包含的依赖项。如果为
None,则会根据当前软件环境通过mlflow.models.infer_pip_requirements()推断出 pip 需求并添加到模型中。如果需求推断失败,则回退到使用 get_default_pip_requirements。conda_env中的 pip 需求将写入 piprequirements.txt文件,完整的 conda 环境将写入conda.yaml。以下是 conda 环境的示例字典表示形式{ "name": "mlflow-env", "channels": ["conda-forge"], "dependencies": [ "python=3.8.15", { "pip": [ "xgboost==x.y.z" ], }, ], }
code_paths –
A list of local filesystem paths to Python file dependencies (or directories containing file dependencies). These files are prepended to the system path when the model is loaded. Files declared as dependencies for a given model should have relative imports declared from a common root path if multiple files are defined with import dependencies between them to avoid import errors when loading the model.
For a detailed explanation of
code_pathsfunctionality, recommended usage patterns and limitations, see the code_paths usage guide.registered_model_name – 如果提供,则在
registered_model_name下创建一个模型版本,如果给定名称的注册模型不存在,也会创建该注册模型。signature –
ModelSignature类的实例,描述模型的输入和输出。如果未指定但提供了input_example,则会根据提供的输入示例和模型自动推断签名。要在提供输入示例时禁用自动签名推断,请将signature设置为False。要手动推断模型签名,请在具有有效模型输入的(例如省略目标列的训练数据集)和有效模型输出(例如在训练数据集上对模型进行的预测)的数据集上调用infer_signature(),例如from mlflow.models import infer_signature train = df.drop_column("target_label") predictions = ... # compute model predictions signature = infer_signature(train, predictions)
input_example – 一个或多个有效的模型输入实例。输入示例用作要馈送给模型的数据的提示。它将被转换为 Pandas DataFrame,然后使用 Pandas 的面向拆分(split-oriented)格式序列化为 json,或者转换为 numpy 数组,其中示例将通过转换为列表来序列化为 json。字节将进行 base64 编码。当
signature参数为None时,输入示例用于推断模型签名。await_registration_for – 等待模型版本完成创建并处于
READY状态的秒数。默认情况下,函数等待五分钟。指定 0 或 None 可跳过等待。pip_requirements – 是一系列 pip 需求字符串(例如
["xgboost", "-r requirements.txt", "-c constraints.txt"])或本地文件系统上的 pip 需求文件的字符串路径(例如"requirements.txt")。如果提供,它描述了模型应运行的环境。如果为None,则通过mlflow.models.infer_pip_requirements()从当前软件环境中推断出默认需求列表。如果需求推断失败,则回退到使用 get_default_pip_requirements。需求和约束都会被自动解析并写入requirements.txt和constraints.txt文件,并作为模型的一部分存储。需求也会被写入模型 conda 环境(conda.yaml)文件的pip部分。extra_pip_requirements –
是一系列额外的 pip 需求字符串(例如
["pandas", "-r requirements.txt", "-c constraints.txt"])或本地文件系统上的 pip 需求文件的字符串路径(例如"requirements.txt")。如果提供,它描述了附加到根据用户当前软件环境自动生成的默认 pip 需求集末尾的额外 pip 需求。需求和约束都会被自动解析并写入requirements.txt和constraints.txt文件,并作为模型的一部分存储。需求也会被写入模型 conda 环境(conda.yaml)文件的pip部分。警告
以下参数不能同时指定
conda_envpip_requirementsextra_pip_requirements
此示例演示了如何使用
pip_requirements和extra_pip_requirements指定 pip requirements。model_format – 要保存模型的文件格式。默认为“ubj”(UBJSON),这是获得最佳性能和跨平台兼容性的推荐格式。也支持“json”和“xgb”格式。
metadata – 传递给模型并存储在 MLmodel 文件中的自定义元数据字典。
name – 模型名称。
params – 要与模型一起记录的参数字典。
tags – 要与模型一起记录的标签字典。
model_type – 模型的类型。
step – 记录模型输出和指标的步骤
model_id – 模型的 ID。
kwargs – 要传递给 xgboost.Booster.save_model 方法的 kwargs。
- 返回
一个
ModelInfo实例,其中包含已记录模型的元数据。
- mlflow.xgboost.save_model(xgb_model, path, conda_env=None, code_paths=None, mlflow_model=None, signature: mlflow.models.signature.ModelSignature = None, input_example: Union[pandas.core.frame.DataFrame, numpy.ndarray, dict, list, csr_matrix, csc_matrix, str, bytes, tuple] = None, pip_requirements=None, extra_pip_requirements=None, model_format='ubj', metadata=None)[source]
将 XGBoost 模型保存到本地文件系统的路径。
- 参数
xgb_model – 要保存的 XGBoost 模型(xgboost.Booster 的实例或实现scikit-learn API 的模型)。
path – 要保存模型的本地路径。
conda_env –
Conda 环境的字典表示形式或本地文件系统上 conda 环境 yaml 文件的路径。如果提供,它描述了模型应运行的环境。至少应指定 get_default_conda_env() 中包含的依赖项。如果为
None,则会根据当前软件环境通过mlflow.models.infer_pip_requirements()推断出 pip 需求并添加到模型中。如果需求推断失败,则回退到使用 get_default_pip_requirements。conda_env中的 pip 需求将写入 piprequirements.txt文件,完整的 conda 环境将写入conda.yaml。以下是 conda 环境的示例字典表示形式{ "name": "mlflow-env", "channels": ["conda-forge"], "dependencies": [ "python=3.8.15", { "pip": [ "xgboost==x.y.z" ], }, ], }
code_paths –
A list of local filesystem paths to Python file dependencies (or directories containing file dependencies). These files are prepended to the system path when the model is loaded. Files declared as dependencies for a given model should have relative imports declared from a common root path if multiple files are defined with import dependencies between them to avoid import errors when loading the model.
For a detailed explanation of
code_pathsfunctionality, recommended usage patterns and limitations, see the code_paths usage guide.mlflow_model – 要添加此 flavor 的
mlflow.models.Model。signature –
ModelSignature类的实例,描述模型的输入和输出。如果未指定但提供了input_example,则会根据提供的输入示例和模型自动推断签名。要在提供输入示例时禁用自动签名推断,请将signature设置为False。要手动推断模型签名,请在具有有效模型输入的(例如省略目标列的训练数据集)和有效模型输出(例如在训练数据集上对模型进行的预测)的数据集上调用infer_signature(),例如from mlflow.models import infer_signature train = df.drop_column("target_label") predictions = ... # compute model predictions signature = infer_signature(train, predictions)
input_example – 一个或多个有效的模型输入实例。输入示例用作要馈送给模型的数据的提示。它将被转换为 Pandas DataFrame,然后使用 Pandas 的面向拆分(split-oriented)格式序列化为 json,或者转换为 numpy 数组,其中示例将通过转换为列表来序列化为 json。字节将进行 base64 编码。当
signature参数为None时,输入示例用于推断模型签名。pip_requirements – 是一系列 pip 需求字符串(例如
["xgboost", "-r requirements.txt", "-c constraints.txt"])或本地文件系统上的 pip 需求文件的字符串路径(例如"requirements.txt")。如果提供,它描述了模型应运行的环境。如果为None,则通过mlflow.models.infer_pip_requirements()从当前软件环境中推断出默认需求列表。如果需求推断失败,则回退到使用 get_default_pip_requirements。需求和约束都会被自动解析并写入requirements.txt和constraints.txt文件,并作为模型的一部分存储。需求也会被写入模型 conda 环境(conda.yaml)文件的pip部分。extra_pip_requirements –
是一系列额外的 pip 需求字符串(例如
["pandas", "-r requirements.txt", "-c constraints.txt"])或本地文件系统上的 pip 需求文件的字符串路径(例如"requirements.txt")。如果提供,它描述了附加到根据用户当前软件环境自动生成的默认 pip 需求集末尾的额外 pip 需求。需求和约束都会被自动解析并写入requirements.txt和constraints.txt文件,并作为模型的一部分存储。需求也会被写入模型 conda 环境(conda.yaml)文件的pip部分。警告
以下参数不能同时指定
conda_envpip_requirementsextra_pip_requirements
此示例演示了如何使用
pip_requirements和extra_pip_requirements指定 pip requirements。model_format – 要保存模型的文件格式。默认为“ubj”(UBJSON),这是获得最佳性能和跨平台兼容性的推荐格式。也支持“json”和“xgb”格式。
metadata – 传递给模型并存储在 MLmodel 文件中的自定义元数据字典。