R API

MLflow R API 允许您使用 MLflow 跟踪项目模型

先决条件

要使用 MLflow R API,您必须安装 MLflow Python 包

pip install mlflow

使用可用 Conda 环境的示例进行安装

conda create -n mlflow-env python
conda activate mlflow-env
pip install mlflow

上面提供的命令创建一个名为 mlflow-env 的新 Conda 环境,指定默认的 Python 版本。然后它激活此环境,使其成为活动的*工作环境。最后,它使用 pip 安装 MLflow 包,确保 MLflow 隔离在此环境中,从而允许为 MLflow 相关任务进行独立的 Python 和包管理。

或者,您可以设置 MLFLOW_PYTHON_BINMLFLOW_BIN 环境变量来指定要使用的 Python 和 MLflow 二进制文件。默认情况下,R 客户端使用 Sys.which('python')Sys.which('mlflow') 自动查找它们。

export MLFLOW_PYTHON_BIN=/path/to/bin/python
export MLFLOW_BIN=/path/to/bin/mlflow

您可以使用 R API 来启动用户界面创建实验搜索实验保存模型运行项目以及部署模型,以及 R API 中可用的许多其他功能。

build_context_tags_from_databricks_job_info

从 Databricks 作业执行环境中获取信息

当在 Databricks 上以非交互模式运行时,解析来自作业执行环境的数据。此函数提取 MLflow 需要正确利用此环境中的 MLflow API 的相关数据。

build_context_tags_from_databricks_job_info(job_info)

参数

参数

描述

job_info

来自正在运行的 Databricks 作业的作业相关元数据

在当前 Databricks 作业环境中创建 MLflow 运行时,要由运行上下文设置的标签列表

build_context_tags_from_databricks_notebook_info

从 Databricks Notebook 环境中获取信息

从 Databricks Notebook 执行环境中检索笔记本 ID、路径、URL、名称、版本和类型,并将它们设置为列表,以便在从 Databricks 以 R 语言执行 MLflow 运行时用于设置配置的环境。

build_context_tags_from_databricks_notebook_info(notebook_info)

参数

参数

描述

notebook_info

来自 Databricks Notebook 环境的配置数据

在当前 Databricks Notebook 环境中创建 MLflow 运行时,要由运行上下文设置的标签列表

mlflow_client

初始化 MLflow 客户端

初始化并返回一个与指定 URI 上的跟踪服务器或存储进行通信的 MLflow 客户端。

mlflow_client(tracking_uri = NULL)

参数

参数

描述

tracking_uri

跟踪 URI。如果未提供,则默认为 mlflow_set_tracking_uri() 设置的服务。

mlflow_create_experiment

创建实验

创建 MLflow 实验并返回其 ID。

mlflow_create_experiment(
  name,
  artifact_location = NULL,
  client = NULL,
  tags = NULL
)

参数

参数

描述

name

要创建的实验的名称。

artifact_location

存储此实验所有工件的位置。如果未提供,远程服务器将选择适当的默认值。

client

(可选) 从 mlflow_client 返回的 MLflow 客户端对象。如果指定,MLflow 将使用与传入的客户端关联的跟踪服务器。如果未指定(常见情况),MLflow 将使用与当前跟踪 URI 关联的跟踪服务器。

tags

在实验创建时设置在实验上的实验标签。

mlflow_create_model_version

创建模型版本

创建模型版本

mlflow_create_model_version(
  name,
  source,
  run_id = NULL,
  tags = NULL,
  run_link = NULL,
  description = NULL,
  client = NULL
)

参数

参数

描述

name

在此名称下注册模型。

source

指示模型工件位置的 URI。

run_id

用于关联的 MLflow 运行 ID,如果 source 是由 MLflow 跟踪中的实验运行生成的。

tags

附加元数据。

run_link

MLflow 运行链接 - 这是生成此模型版本的运行的确切链接。

description

模型版本的描述。

client

(可选) 从 mlflow_client 返回的 MLflow 客户端对象。如果指定,MLflow 将使用与传入的客户端关联的跟踪服务器。如果未指定(常见情况),MLflow 将使用与当前跟踪 URI 关联的跟踪服务器。

mlflow_create_registered_model

创建已注册模型

在模型注册表中创建新的已注册模型

mlflow_create_registered_model(
  name,
  tags = NULL,
  description = NULL,
  client = NULL
)

参数

参数

描述

name

要创建的模型的名称。

tags

已注册模型的附加元数据(可选)。

description

已注册模型的描述(可选)。

client

(可选) 从 mlflow_client 返回的 MLflow 客户端对象。如果指定,MLflow 将使用与传入的客户端关联的跟踪服务器。如果未指定(常见情况),MLflow 将使用与当前跟踪 URI 关联的跟踪服务器。

mlflow_delete_experiment

删除实验

标记要删除的实验及相关的运行、参数、指标等。如果实验使用 FileStore,也会删除与实验相关的工件。

mlflow_delete_experiment(experiment_id, client = NULL)

参数

参数

描述

experiment_id

关联实验的 ID。此字段是必需的。

client

(可选) 从 mlflow_client 返回的 MLflow 客户端对象。如果指定,MLflow 将使用与传入的客户端关联的跟踪服务器。如果未指定(常见情况),MLflow 将使用与当前跟踪 URI 关联的跟踪服务器。

mlflow_delete_model_version

删除模型版本

删除模型版本

mlflow_delete_model_version(name, version, client = NULL)

参数

参数

描述

name

已注册模型的名称。

version

模型版本号。

client

(可选) 从 mlflow_client 返回的 MLflow 客户端对象。如果指定,MLflow 将使用与传入的客户端关联的跟踪服务器。如果未指定(常见情况),MLflow 将使用与当前跟踪 URI 关联的跟踪服务器。

mlflow_delete_registered_model

删除已注册模型

通过名称删除现有的已注册模型

mlflow_delete_registered_model(name, client = NULL)

参数

参数

描述

name

要删除的模型的名称

client

(可选) 从 mlflow_client 返回的 MLflow 客户端对象。如果指定,MLflow 将使用与传入的客户端关联的跟踪服务器。如果未指定(常见情况),MLflow 将使用与当前跟踪 URI 关联的跟踪服务器。

mlflow_delete_run

删除运行

删除具有指定 ID 的运行。

mlflow_delete_run(run_id, client = NULL)

参数

参数

描述

run_id

运行 ID。

client

(可选) 从 mlflow_client 返回的 MLflow 客户端对象。如果指定,MLflow 将使用与传入的客户端关联的跟踪服务器。如果未指定(常见情况),MLflow 将使用与当前跟踪 URI 关联的跟踪服务器。

mlflow_delete_tag

删除标签

删除运行上的标签。这是不可逆的。标签是可以在运行期间和运行完成后更新的运行元数据。

mlflow_delete_tag(key, run_id = NULL, client = NULL)

参数

参数

描述

key

标签的名称。最大大小为 255 字节。此字段是必需的。

run_id

运行 ID。

client

(可选) 从 mlflow_client 返回的 MLflow 客户端对象。如果指定,MLflow 将使用与传入的客户端关联的跟踪服务器。如果未指定(常见情况),MLflow 将使用与当前跟踪 URI 关联的跟踪服务器。

mlflow_download_artifacts

下载工件

将运行中的工件文件或目录(如果适用)下载到本地目录,并为其返回本地路径。

mlflow_download_artifacts(path, run_id = NULL, client = NULL)

参数

参数

描述

path

所需工件的相对源路径。

run_id

运行 ID。

client

(可选) 从 mlflow_client 返回的 MLflow 客户端对象。如果指定,MLflow 将使用与传入的客户端关联的跟踪服务器。如果未指定(常见情况),MLflow 将使用与当前跟踪 URI 关联的跟踪服务器。

mlflow_end_run

结束运行

终止运行。如果未指定 run_id,则尝试结束当前活动的运行。

mlflow_end_run(
  status = c("FINISHED", "FAILED", "KILLED"),
  end_time = NULL,
  run_id = NULL,
  client = NULL
)

参数

参数

描述

status

运行的更新状态。默认为 FINISHED。也可以设置为“FAILED”或“KILLED”。

end_time

运行结束时间的 Unix 时间戳(以毫秒为单位)。

run_id

运行 ID。

client

(可选) 从 mlflow_client 返回的 MLflow 客户端对象。如果指定,MLflow 将使用与传入的客户端关联的跟踪服务器。如果未指定(常见情况),MLflow 将使用与当前跟踪 URI 关联的跟踪服务器。

mlflow_get_experiment

获取实验

获取实验的元数据以及实验的运行列表。如果同时未指定 experiment_idname,则尝试获取活动实验。

mlflow_get_experiment(experiment_id = NULL, name = NULL, client = NULL)

参数

参数

描述

experiment_id

实验的 ID。

name

实验名称。最多应指定 nameexperiment_id 中的一个。

client

(可选) 从 mlflow_client 返回的 MLflow 客户端对象。如果指定,MLflow 将使用与传入的客户端关联的跟踪服务器。如果未指定(常见情况),MLflow 将使用与当前跟踪 URI 关联的跟踪服务器。

mlflow_get_latest_versions

获取最新的模型版本

检索给定模型的最新模型版本的列表。

mlflow_get_latest_versions(name, stages = list(), client = NULL)

参数

参数

描述

name

模型的名称。

stages

所需阶段的列表。如果输入列表为 NULL,则返回所有阶段的最新版本。

client

(可选) 从 mlflow_client 返回的 MLflow 客户端对象。如果指定,MLflow 将使用与传入的客户端关联的跟踪服务器。如果未指定(常见情况),MLflow 将使用与当前跟踪 URI 关联的跟踪服务器。

mlflow_get_metric_history

获取指标历史记录

获取给定运行中指定指标的所有值的列表。

mlflow_get_metric_history(metric_key, run_id = NULL, client = NULL)

参数

参数

描述

metric_key

指标的名称。

run_id

运行 ID。

client

(可选) 从 mlflow_client 返回的 MLflow 客户端对象。如果指定,MLflow 将使用与传入的客户端关联的跟踪服务器。如果未指定(常见情况),MLflow 将使用与当前跟踪 URI 关联的跟踪服务器。

mlflow_get_model_version

获取模型版本

获取模型版本

mlflow_get_model_version(name, version, client = NULL)

参数

参数

描述

name

已注册模型的名称。

version

模型版本号。

client

(可选) 从 mlflow_client 返回的 MLflow 客户端对象。如果指定,MLflow 将使用与传入的客户端关联的跟踪服务器。如果未指定(常见情况),MLflow 将使用与当前跟踪 URI 关联的跟踪服务器。

mlflow_get_registered_model

获取已注册模型

从模型注册表中检索已注册模型。

mlflow_get_registered_model(name, client = NULL)

参数

参数

描述

name

要检索的模型的名称。

client

(可选) 从 mlflow_client 返回的 MLflow 客户端对象。如果指定,MLflow 将使用与传入的客户端关联的跟踪服务器。如果未指定(常见情况),MLflow 将使用与当前跟踪 URI 关联的跟踪服务器。

mlflow_get_run

获取运行

获取运行的元数据、参数、标签和指标。返回每个指标键的单个值:在最大步长下最近记录的指标值。

mlflow_get_run(run_id = NULL, client = NULL)

参数

参数

描述

run_id

运行 ID。

client

(可选) 从 mlflow_client 返回的 MLflow 客户端对象。如果指定,MLflow 将使用与传入的客户端关联的跟踪服务器。如果未指定(常见情况),MLflow 将使用与当前跟踪 URI 关联的跟踪服务器。

mlflow_get_tracking_uri

获取远程跟踪 URI

获取远程跟踪 URI。

mlflow_get_tracking_uri()

mlflow_id

获取运行或实验 ID

提取运行或实验的 ID。

mlflow_id(object)
list(list("mlflow_id"), list("mlflow_run"))(object)
list(list("mlflow_id"), list("mlflow_experiment"))(object)

参数

参数

描述

object

一个 mlflow_runmlflow_experiment 对象。

mlflow_list_artifacts

列出工件

获取工件列表。

mlflow_list_artifacts(path = NULL, run_id = NULL, client = NULL)

参数

参数

描述

path

要从中列出工件的运行的相对工件路径。如果未指定,则设置为根工件路径

run_id

运行 ID。

client

(可选) 从 mlflow_client 返回的 MLflow 客户端对象。如果指定,MLflow 将使用与传入的客户端关联的跟踪服务器。如果未指定(常见情况),MLflow 将使用与当前跟踪 URI 关联的跟踪服务器。

mlflow_load_flavor

加载 MLflow 模型风味

使用特定风味加载 MLflow 模型。此方法由 mlflow_load_model 内部调用,但已暴露给包作者以扩展支持的 MLflow 模型。有关 MLflow 模型风味的更多信息,请参阅https://mlflow.org.cn/docs/latest/models.html#storage-format

mlflow_load_flavor(flavor, model_path)

参数

参数

描述

flavor

mlflo w_load_model 加载的 MLflow 风味对象,其中类从 MLmodel 文件中的 flavor 字段加载。

model_path

MLflow 模型所在的路径,并用正确的类包装。

mlflow_load_model

加载 MLflow 模型

加载 MLflow 模型。MLflow 模型可以有多个模型风味。并非所有风味/模型都可以在 R 中加载。此方法默认搜索 R/MLflow 支持的风味。

mlflow_load_model(model_uri, flavor = NULL, client = mlflow_client())

参数

参数

描述

model_uri

MLflow 模型所在的位置(以 URI 格式)。

flavor

可选的风味规范(字符串)。如果存在多个可用风味,可用于加载特定风味。

client

(可选) 从 mlflow_client 返回的 MLflow 客户端对象。如果指定,MLflow 将使用与传入的客户端关联的跟踪服务器。如果未指定(常见情况),MLflow 将使用与当前跟踪 URI 关联的跟踪服务器。

详情

URI 方案必须受 MLflow 支持——即必须有一个 MLflow 工件存储库对应于 URI 的方案。内容应指向包含 MLmodel 的目录。以下是有效模型 URI 的示例

  • file:///absolute/path/to/local/model

  • file:relative/path/to/local/model

  • s3://my_bucket/path/to/model

  • runs:/<mlflow_run_id>/run-relative/path/to/model

  • models:/<model_name>/<model_version>

  • models:/<model_name>/<stage>

有关支持的 URI 方案的更多信息,请参阅工件文档

mlflow_log_artifact

记录工件

将特定文件或目录记录为运行的工件。

mlflow_log_artifact(path, artifact_path = NULL, run_id = NULL, client = NULL)

参数

参数

描述

path

要记录为工件的文件或目录。

artifact_path

运行工件 URI 内的目标路径。

run_id

运行 ID。

client

(可选) 从 mlflow_client 返回的 MLflow 客户端对象。如果指定,MLflow 将使用与传入的客户端关联的跟踪服务器。如果未指定(常见情况),MLflow 将使用与当前跟踪 URI 关联的跟踪服务器。

详情

当向 Amazon S3 记录时,请确保您对存储桶具有 s3:PutObject、s3:GetObject、s3:ListBucket 和 s3:GetBucketLocation 权限。

此外,至少必须将 AWS_ACCESS_KEY_IDAWS_SECRET_ACCESS_KEY 环境变量设置为 Amazon IAM 提供的相应密钥和密钥。

mlflow_log_batch

批量记录

为运行记录一批指标、参数和/或标签。如果任何数据未能持久化,服务器将以错误(非 200 状态码)响应。在发生错误(由于内部服务器错误或无效请求)时,可能会写入部分数据。

mlflow_log_batch(
  metrics = NULL,
  params = NULL,
  tags = NULL,
  run_id = NULL,
  client = NULL
)

参数

参数

描述

metrics

要记录的指标的数据帧,包含以下列:“key”、“value”、“step”、“timestamp”。此数据帧不能包含任何缺失的(‘NA’)条目。

params

要记录的参数的数据帧,包含以下列:“key”、“value”。此数据帧不能包含任何缺失的(‘NA’)条目。

tags

要记录的标签的数据帧,包含以下列:“key”、“value”。此数据帧不能包含任何缺失的(‘NA’)条目。

run_id

运行 ID。

client

(可选) 从 mlflow_client 返回的 MLflow 客户端对象。如果指定,MLflow 将使用与传入的客户端关联的跟踪服务器。如果未指定(常见情况),MLflow 将使用与当前跟踪 URI 关联的跟踪服务器。

mlflow_log_metric

记录指标

为运行记录指标。指标键值对记录单个浮点度量。在运行的单次执行期间,可以多次记录特定指标。MLflow 后端通过两个轴跟踪历史指标值:时间戳和步长。

mlflow_log_metric(
  key,
  value,
  timestamp = NULL,
  step = NULL,
  run_id = NULL,
  client = NULL
)

参数

参数

描述

key

指标的名称。

value

要记录的指标的浮点值。

timestamp

记录指标的时间戳。时间戳四舍五入到最接近的整数。如果未指定,则使用自 Unix 纪元以来的毫秒数。

step

记录指标的步长。步长四舍五入到最接近的整数。如果未指定,则使用默认值零。

run_id

运行 ID。

client

(可选) 从 mlflow_client 返回的 MLflow 客户端对象。如果指定,MLflow 将使用与传入的客户端关联的跟踪服务器。如果未指定(常见情况),MLflow 将使用与当前跟踪 URI 关联的跟踪服务器。

mlflow_log_model

记录模型

为此运行记录模型。类似于 mlflow_save_model(),但将模型作为工件存储在活动运行中。

mlflow_log_model(model, artifact_path, ...)

参数

参数

描述

model

将执行预测的模型。

artifact_path

将保存此 MLflow 兼容模型的目标路径。

...

在持久化模型时传递给 mlflow_save_model() 的可选附加参数。例如,可以传递 conda_env = /path/to/conda.yaml 以指定用于风味(例如 keras)的 conda 依赖项文件,这些风味支持 conda 环境。

mlflow_log_param

记录参数

为运行记录参数。示例包括用于 ML 训练的参数和超参数,或 ETL 管道中使用的固定日期和值。参数是字符串键值对。对于运行,单个参数只允许记录一次。

mlflow_log_param(key, value, run_id = NULL, client = NULL)

参数

参数

描述

key

参数的名称。

value

参数的字符串值。

run_id

运行 ID。

client

(可选) 从 mlflow_client 返回的 MLflow 客户端对象。如果指定,MLflow 将使用与传入的客户端关联的跟踪服务器。如果未指定(常见情况),MLflow 将使用与当前跟踪 URI 关联的跟踪服务器。

mlflow_param

读取命令行参数

读取传递给 MLflow 项目的命令行参数。MLflow 允许您通过 mlflow_param API 为 R 脚本定义命名的、类型的输入参数。这对于实验很有用,例如,使用不同参数跟踪同一脚本的多次调用。

mlflow_param(name, default = NULL, type = NULL, description = NULL)

参数

参数

描述

name

参数的名称。

default

参数的默认值。

type

此参数的类型。如果未设置 default,则为必需。如果指定,则必须是“numeric”、“integer”或“string”之一。

description

参数的可选描述。

示例

# This parametrized script trains a GBM model on the Iris dataset and can be run as an MLflow
# project. You can run this script (assuming it's saved at /some/directory/params_example.R)
# with custom parameters via:
# mlflow_run(entry_point = "params_example.R", uri = "/some/directory",
#   parameters = list(num_trees = 200, learning_rate = 0.1))
install.packages("gbm")
library(mlflow)
library(gbm)
# define and read input parameters
num_trees <- mlflow_param(name = "num_trees", default = 200, type = "integer")
lr <- mlflow_param(name = "learning_rate", default = 0.1, type = "numeric")
# use params to fit a model
ir.adaboost <- gbm(Species ~., data=iris, n.trees=num_trees, shrinkage=lr)

mlflow_predict

使用 MLflow 模型生成预测

对使用 mlflow_load_model() 加载的模型执行预测,供包作者扩展支持的 MLflow 模型使用。

mlflow_predict(model, data, ...)

参数

参数

描述

model

加载的 MLflow 模型风味。

data

要进行评分的数据帧。

...

传递到底层预测方法的其他可选参数。

mlflow_register_external_observer

注册外部 MLflow 观察者

注册一个外部 MLflow 观察者,它将在任何模型跟踪事件(如“create_run”、“delete_run”或“log_metric”)上接收一个 register_tracking_event(event_name, data) 回调。每个观察者都应具有一个 register_tracking_event(event_name, data) 回调,该回调接受一个指定跟踪事件名称的字符向量 event_name,以及包含事件属性列表的 data。回调应该是无阻塞的,并且理想情况下应瞬时完成。从回调中抛出的任何异常都将被忽略。

mlflow_register_external_observer(observer)

参数

参数

描述

observer

观察者对象(参见示例)

示例

library(mlflow)

observer <- structure(list())
observer$register_tracking_event <- function(event_name, data) {
print(event_name)
print(data)
}
mlflow_register_external_observer(observer)

mlflow_rename_experiment

重命名实验

重命名实验。

mlflow_rename_experiment(new_name, experiment_id = NULL, client = NULL)

参数

参数

描述

new_name

实验的名称将更改为这个。新名称必须是唯一的。

experiment_id

关联实验的 ID。此字段是必需的。

client

(可选) 从 mlflow_client 返回的 MLflow 客户端对象。如果指定,MLflow 将使用与传入的客户端关联的跟踪服务器。如果未指定(常见情况),MLflow 将使用与当前跟踪 URI 关联的跟踪服务器。

mlflow_rename_registered_model

重命名已注册模型

重命名模型注册表中的模型。

mlflow_rename_registered_model(name, new_name, client = NULL)

参数

参数

描述

name

模型的当前名称。

new_name

模型的名称。

client

(可选) 从 mlflow_client 返回的 MLflow 客户端对象。如果指定,MLflow 将使用与传入的客户端关联的跟踪服务器。如果未指定(常见情况),MLflow 将使用与当前跟踪 URI 关联的跟踪服务器。

mlflow_restore_experiment

恢复实验

恢复标记为删除的实验。这也恢复了相关的元数据、运行、指标和参数。如果实验使用 FileStore,也会恢复与实验相关的底层工件。

mlflow_restore_experiment(experiment_id, client = NULL)

参数

参数

描述

experiment_id

关联实验的 ID。此字段是必需的。

client

(可选) 从 mlflow_client 返回的 MLflow 客户端对象。如果指定,MLflow 将使用与传入的客户端关联的跟踪服务器。如果未指定(常见情况),MLflow 将使用与当前跟踪 URI 关联的跟踪服务器。

详情

如果实验从未创建或被永久删除,则抛出 RESOURCE_DOES_NOT_EXIST

mlflow_restore_run

恢复运行

恢复具有指定 ID 的运行。

mlflow_restore_run(run_id, client = NULL)

参数

参数

描述

run_id

运行 ID。

client

(可选) 从 mlflow_client 返回的 MLflow 客户端对象。如果指定,MLflow 将使用与传入的客户端关联的跟踪服务器。如果未指定(常见情况),MLflow 将使用与当前跟踪 URI 关联的跟踪服务器。

mlflow_rfunc_serve

部署 RFunc MLflow 模型

将 RFunc MLflow 模型作为本地 REST API 服务器进行部署。此接口提供与 mlflow models serve cli 命令类似的功能,但它只能用于部署包含 RFunc 风味 的模型。部署的服务器支持带有 /ping 和 /invocation 端点的标准 mlflow 模型接口。此外,R 函数模型还支持已弃用的 /predict 端点,用于生成预测。/predict 端点将在未来版本的 mlflow 中删除。

mlflow_rfunc_serve(
  model_uri,
  host = "127.0.0.1",
  port = 8090,
  daemonized = FALSE,
  browse = !daemonized,
  ...
)

参数

参数

描述

model_uri

MLflow 模型所在的位置(以 URI 格式)。

host

用作部署模型的地址,为字符串。

port

用于部署模型的端口,为数值。

daemonized

使 httpuv 服务器后台化,以便 R 交互会话不会被阻塞以处理请求。要终止后台服务器,请调用 httpuv::stopDaemonizedServer() 并传入从此调用返回的句柄。

browse

在服务着陆页上启动浏览器?

...

传递给 mlflow_predict() 的可选参数。

详情

URI 方案必须受 MLflow 支持——即必须有一个 MLflow 工件存储库对应于 URI 的方案。内容应指向包含 MLmodel 的目录。以下是有效模型 URI 的示例

  • file:///absolute/path/to/local/model

  • file:relative/path/to/local/model

  • s3://my_bucket/path/to/model

  • runs:/<mlflow_run_id>/run-relative/path/to/model

  • models:/<model_name>/<model_version>

  • models:/<model_name>/<stage>

有关支持的 URI 方案的更多信息,请参阅工件文档

示例

library(mlflow)

# save simple model with constant prediction
mlflow_save_model(function(df) 1, "mlflow_constant")

# serve an existing model over a web interface
mlflow_rfunc_serve("mlflow_constant")

# request prediction from server
httr::POST("http://127.0.0.1:8090/predict/")

mlflow_run

运行 MLflow 项目

mlflow run CLI 命令的包装器。有关更多信息,请参阅 https://www.mlflow.org/docs/latest/cli.html#mlflow-run

mlflow_run(
  uri = ".",
  entry_point = NULL,
  version = NULL,
  parameters = NULL,
  experiment_id = NULL,
  experiment_name = NULL,
  backend = NULL,
  backend_config = NULL,
  env_manager = NULL,
  storage_dir = NULL
)

参数

参数

描述

uri

包含建模脚本的目录,默认为当前目录。

entry_point

项目中的入口点,如果未指定,则默认为 main

version

要运行的项目版本,对于 Git 项目是 Git 提交引用。

parameters

参数列表。

experiment_id

在其中启动运行的实验的 ID。

experiment_name

启动运行的实验的名称。

backend

用于运行的执行后端。

backend_config

将传递给后端的 JSON 文件的路径。对于 Databricks 后端,它应描述在 Databricks 上启动运行时要使用的集群。

env_manager

如果指定,则使用指定的环境管理器为项目创建环境。可用选项包括 ‘local’、‘virtualenv’ 和 ‘conda’。

storage_dir

仅当 backend 为 local 时才有效。MLflow 将从传递给 path 类型参数的分布式 URI 将工件下载到 storage_dir 的子目录中。

与此运行关联的运行。

示例

# This parametrized script trains a GBM model on the Iris dataset and can be run as an MLflow
# project. You can run this script (assuming it's saved at /some/directory/params_example.R)
# with custom parameters via:
# mlflow_run(entry_point = "params_example.R", uri = "/some/directory",
#   parameters = list(num_trees = 200, learning_rate = 0.1))
install.packages("gbm")
library(mlflow)
library(gbm)
# define and read input parameters
num_trees <- mlflow_param(name = "num_trees", default = 200, type = "integer")
lr <- mlflow_param(name = "learning_rate", default = 0.1, type = "numeric")
# use params to fit a model
ir.adaboost <- gbm(Species ~., data=iris, n.trees=num_trees, shrinkage=lr)

mlflow_save_model.crate

为 MLflow 保存模型

以 MLflow 格式保存模型,之后可用于预测和部署。此方法是通用的,允许包作者保存自定义模型类型。

list(list("mlflow_save_model"), list("crate"))(model, path, model_spec = list(), ...)
mlflow_save_model(model, path, model_spec = list(), ...)
list(list("mlflow_save_model"), list("H2OModel"))(model, path, model_spec = list(), conda_env = NULL, ...)
list(list("mlflow_save_model"), list("keras.engine.training.Model"))(model, path, model_spec = list(), conda_env = NULL, ...)
list(list("mlflow_save_model"), list("xgb.Booster"))(model, path, model_spec = list(), conda_env = NULL, ...)

参数

参数

描述

model

将执行预测的模型。

path

将保存此 MLflow 兼容模型的目标路径。

model_spec

此模型风味正在添加到的 MLflow 模型配置。

...

可选的附加参数。

conda_env

Conda 依赖项文件的路径。

mlflow_search_experiments

搜索实验

搜索满足指定标准的实验。

mlflow_search_experiments(
  filter = NULL,
  experiment_view_type = c("ACTIVE_ONLY", "DELETED_ONLY", "ALL"),
  max_results = 1000,
  order_by = list(),
  page_token = NULL,
  client = NULL
)

参数

参数

描述

filter

用于识别特定实验的筛选表达式。语法是 SQL 的一个子集,只允许将二元操作 AND 连接起来。示例:“attribute.name = ‘MyExperiment’”,“tags.problem_type = ‘iris_regression’”

experiment_view_type

实验视图类型。只返回与此视图类型匹配的实验。

max_results

要检索的最大实验数量。

order_by

用于排序的属性列表。示例:“attribute.name”。

page_token

用于根据上一次查询转到下一页的分页标记。

client

(可选) 从 mlflow_client 返回的 MLflow 客户端对象。如果指定,MLflow 将使用与传入的客户端关联的跟踪服务器。如果未指定(常见情况),MLflow 将使用与当前跟踪 URI 关联的跟踪服务器。

mlflow_search_registered_models

列出已注册的模型

检索已注册模型的列表。

mlflow_search_registered_models(
  filter = NULL,
  max_results = 100,
  order_by = list(),
  page_token = NULL,
  client = NULL
)

参数

参数

描述

filter

用于识别特定已注册模型的筛选表达式。语法是 SQL 的一个子集,只允许将二元操作 AND 连接起来。示例:“name = ‘my_model_name’ and tag.key = ‘value1’”

max_results

要检索的最大已注册模型数量。

order_by

用于排序的已注册模型属性列表。示例:“name”。

page_token

用于根据上一次查询转到下一页的分页标记。

client

(可选) 从 mlflow_client 返回的 MLflow 客户端对象。如果指定,MLflow 将使用与传入的客户端关联的跟踪服务器。如果未指定(常见情况),MLflow 将使用与当前跟踪 URI 关联的跟踪服务器。

mlflow_search_runs

搜索运行

搜索满足表达式的运行。搜索表达式可以使用 Metric 和 Param 键。

mlflow_search_runs(
  filter = NULL,
  run_view_type = c("ACTIVE_ONLY", "DELETED_ONLY", "ALL"),
  experiment_ids = NULL,
  order_by = list(),
  client = NULL
)

参数

参数

描述

filter

关于参数、指标和标签的筛选表达式,允许返回运行的子集。语法是 SQL 的一个子集,只允许将参数/指标/标签与常量之间的二元操作 AND 连接起来。

run_view_type

运行视图类型。

experiment_ids

用于搜索的实验 ID 字符串列表(或单个实验 ID 字符串)。如果未指定,则尝试使用活动实验。

order_by

用于排序的属性列表。示例:“metrics.acc DESC”。

client

(可选) 从 mlflow_client 返回的 MLflow 客户端对象。如果指定,MLflow 将使用与传入的客户端关联的跟踪服务器。如果未指定(常见情况),MLflow 将使用与当前跟踪 URI 关联的跟踪服务器。

mlflow_server

运行 MLflow 跟踪服务器

mlflow server 的封装。

mlflow_server(
  file_store = "mlruns",
  default_artifact_root = NULL,
  host = "127.0.0.1",
  port = 5000,
  workers = NULL,
  static_prefix = NULL,
  serve_artifacts = FALSE
)

参数

参数

描述

file_store

实验和运行数据的底层文件存储的根目录。

default_artifact_root

用于存储工件的本地或 S3 URI,适用于新创建的实验。

host

要监听的网络地址(默认值:127.0.0.1)。

port

要监听的端口(默认值:5000)。

workers

处理请求的 gunicorn 工作进程数(默认值:4)。

static_prefix

将作为前缀添加到所有静态路径路径的路径。

serve_artifacts

一个标志,指定是否启用工件服务(默认值:FALSE)。

mlflow_set_experiment_tag

设置实验标签

为具有指定 ID 的实验设置标签。标签是可以在运行期间更新的实验元数据。

mlflow_set_experiment_tag(key, value, experiment_id = NULL, client = NULL)

参数

参数

描述

key

标签的名称。所有存储后端都保证支持大小最高为 250 字节的键值。此字段是必需的。

value

要记录的标签的字符串值。所有存储后端都保证支持大小最高为 5000 字节的键值。此字段是必需的。

experiment_id

实验的 ID。

client

(可选) 从 mlflow_client 返回的 MLflow 客户端对象。如果指定,MLflow 将使用与传入的客户端关联的跟踪服务器。如果未指定(常见情况),MLflow 将使用与当前跟踪 URI 关联的跟踪服务器。

mlflow_set_experiment

设置实验

将一个实验设置为活动实验。可以提供实验的名称或 ID。如果提供了名称但实验不存在,此函数将使用提供的名称创建一个实验。返回活动实验的 ID。

mlflow_set_experiment(
  experiment_name = NULL,
  experiment_id = NULL,
  artifact_location = NULL
)

参数

参数

描述

experiment_name

要激活的实验名称。

experiment_id

要激活的实验 ID。

artifact_location

存储此实验所有工件的位置。如果未提供,远程服务器将选择适当的默认值。

mlflow_set_model_version_tag

设置模型版本标签

为模型版本设置标签。当设置了阶段时,标签将设置在阶段的最新模型版本上。同时设置 version 和 stage 参数将导致错误。

mlflow_set_model_version_tag(
  name,
  version = NULL,
  key = NULL,
  value = NULL,
  stage = NULL,
  client = NULL
)

参数

参数

描述

name

已注册的模型名称。

version

已注册的模型版本。

key

要记录的标签键。key 是必需的。

value

要记录的标签值。value 是必需的。

stage

已注册的模型阶段。

client

(可选) 从 mlflow_client 返回的 MLflow 客户端对象。如果指定,MLflow 将使用与传入的客户端关联的跟踪服务器。如果未指定(常见情况),MLflow 将使用与当前跟踪 URI 关联的跟踪服务器。

mlflow_set_tag

设置标签

为运行设置标签。标签是可以在运行期间和运行完成后更新的运行元数据。

mlflow_set_tag(key, value, run_id = NULL, client = NULL)

参数

参数

描述

key

标签的名称。最大大小为 255 字节。此字段是必需的。

value

要记录的标签的字符串值。最大大小为 500 字节。此字段是必需的。

run_id

运行 ID。

client

(可选) 从 mlflow_client 返回的 MLflow 客户端对象。如果指定,MLflow 将使用与传入的客户端关联的跟踪服务器。如果未指定(常见情况),MLflow 将使用与当前跟踪 URI 关联的跟踪服务器。

mlflow_set_tracking_uri

设置远程跟踪 URI

指定远程 MLflow 服务器的 URI,该服务器将用于跟踪实验。

mlflow_set_tracking_uri(uri)

参数

参数

描述

uri

远程 MLflow 服务器的 URI。

mlflow_source

使用 MLflow 参数源化一个脚本

此函数不应用于交互式使用。它旨在通过终端中的 Rscript 或通过 MLflow CLI 调用。

mlflow_source(uri)

参数

参数

描述

uri

R 脚本的路径,可以是带引号或不带引号的字符串。

mlflow_start_run

开始运行

启动一个新运行。如果未提供 client,此函数会推断上下文信息,例如源名称和版本,还会将创建的运行注册为活动运行。如果提供了 client,则不进行推断,并且可以提供其他参数,例如 start_time

mlflow_start_run(
  run_id = NULL,
  experiment_id = NULL,
  start_time = NULL,
  tags = NULL,
  client = NULL,
  nested = FALSE
)

参数

参数

描述

run_id

如果指定,则获取具有指定 UUID 的运行,并在该运行下记录指标和参数。运行的结束时间被取消设置,其状态设置为正在运行,但运行的其他属性保持不变。

experiment_id

仅在未指定 run_id 时使用。创建当前运行的实验的 ID。如果未指定,则该运行在具有随机生成名称的新实验下创建。

start_time

运行开始时间的毫秒级 Unix 时间戳。仅在指定 client 时使用。

tags

运行的其他元数据,以键值对形式。仅在指定 client 时使用。

client

(可选) 从 mlflow_client 返回的 MLflow 客户端对象。如果指定,MLflow 将使用与传入的客户端关联的跟踪服务器。如果未指定(常见情况),MLflow 将使用与当前跟踪 URI 关联的跟踪服务器。

nested

控制要启动的运行是否嵌套在父运行中。TRUE 创建一个嵌套运行。

示例

with(mlflow_start_run(), {
mlflow_log_metric("test", 10)
})

mlflow_transition_model_version_stage

转换模型版本阶段

将模型版本转换到不同的阶段。

mlflow_transition_model_version_stage(
  name,
  version,
  stage,
  archive_existing_versions = FALSE,
  client = NULL
)

参数

参数

描述

name

已注册模型的名称。

version

模型版本号。

stage

model_version 转换到此阶段。

archive_existing_versions

(可选)

client

(可选) 从 mlflow_client 返回的 MLflow 客户端对象。如果指定,MLflow 将使用与传入的客户端关联的跟踪服务器。如果未指定(常见情况),MLflow 将使用与当前跟踪 URI 关联的跟踪服务器。

mlflow_ui

运行 MLflow 用户界面

启动 MLflow 用户界面。

mlflow_ui(client, ...)

参数

参数

描述

client

(可选) 从 mlflow_client 返回的 MLflow 客户端对象。如果指定,MLflow 将使用与传入的客户端关联的跟踪服务器。如果未指定(常见情况),MLflow 将使用与当前跟踪 URI 关联的跟踪服务器。

...

x 是文件存储的路径时,传递给 mlflow_server() 的可选参数。

示例

library(mlflow)

# launch mlflow ui locally
mlflow_ui()

# launch mlflow ui for existing mlflow server
mlflow_set_tracking_uri("http://tracking-server:5000")
mlflow_ui()

mlflow_update_model_version

更新模型版本

更新模型版本

mlflow_update_model_version(name, version, description, client = NULL)

参数

参数

描述

name

已注册模型的名称。

version

模型版本号。

description

此模型版本的描述。

client

(可选) 从 mlflow_client 返回的 MLflow 客户端对象。如果指定,MLflow 将使用与传入的客户端关联的跟踪服务器。如果未指定(常见情况),MLflow 将使用与当前跟踪 URI 关联的跟踪服务器。

mlflow_update_registered_model

更新已注册的模型

更新模型注册表中的模型。

mlflow_update_registered_model(name, description, client = NULL)

参数

参数

描述

name

已注册模型的名称。

description

此已注册模型的更新后描述。

client

(可选) 从 mlflow_client 返回的 MLflow 客户端对象。如果指定,MLflow 将使用与传入的客户端关联的跟踪服务器。如果未指定(常见情况),MLflow 将使用与当前跟踪 URI 关联的跟踪服务器。