跳到主内容

将 MLflow 模型部署为本地推理服务器

MLflow 允许您仅使用一个命令在本地部署您的模型。这种方法非常适合轻量级应用程序,或者在将模型迁移到预生产或生产环境之前进行本地测试。

如果您是 MLflow 模型部署的新手,请先阅读 MLflow 部署 指南,以了解 MLflow 模型和部署的基本概念。

部署推理服务器

在部署之前,您必须拥有一个 MLflow 模型。如果您没有,可以按照 MLflow Tracking 快速入门 创建一个示例 scikit-learn 模型。请记住记录模型 URI,例如 runs:/<run_id>/<artifact_path>(如果您在 MLflow Model Registry 中注册了模型,则为 models:/<model_name>/<model_version>)。

模型准备好后,部署到本地服务器非常简单。使用 mlflow models serve 命令进行一步部署。此命令会启动一个本地服务器,监听指定端口并提供模型服务。有关可用选项,请参阅 CLI 参考

mlflow models serve -m runs:/<run_id>/model -p 5000

然后,您可以按如下方式向服务器发送测试请求

curl http://127.0.0.1:5000/invocations -H "Content-Type:application/json"  --data '{"inputs": [[1, 2], [3, 4], [5, 6]]}'

有几个命令行选项可用于自定义服务器的行为。例如,--env-manager 选项允许您选择特定的环境管理器(如 Anaconda)来创建虚拟环境。mlflow models 模块还提供了其他有用的命令,例如构建 Docker 镜像或生成 Dockerfile。有关详细信息,请参阅 MLflow CLI 参考

推理服务器规范

端点

推理服务器提供 4 个端点

  • /invocations:一个推理端点,接受带有输入数据的 POST 请求并返回预测结果。

  • /ping:用于健康检查。

  • /health:与 /ping 相同

  • /version:返回 MLflow 版本。

接受的输入格式

/invocations 端点接受 CSV 或 JSON 输入。输入格式必须在 Content-Type 头中指定为 application/jsonapplication/csv

CSV 输入

CSV 输入必须是有效的 pandas.DataFrame CSV 表示形式。例如

curl http://127.0.0.1:5000/invocations -H 'Content-Type: application/csv' --data '1,2,3,4'

JSON 输入

您可以传递一个与所需模型负载对应的扁平字典,也可以将负载包装在一个带有字典键的字典中,该键指定您的负载格式。

包装负载字典

如果您的模型格式不支持上述格式,或者您想避免将输入数据转换为所需的负载格式,您可以利用下面的字典负载结构。

字段描述示例
dataframe_splitsplit 方向的 Pandas DataFrame。
{"dataframe_split": pandas_df.to_dict(orient="split")}
dataframe_recordsrecords 方向的 Pandas DataFrame。我们不建议使用此格式,因为它不保证保留列的顺序。
{"dataframe_records": pandas_df.to_dict(orient="records")}
instances按照 TF Serving 的 API 文档 中描述的格式化的 Tensor 输入,其中提供的输入将被转换为 Numpy 数组。
{"instances": [1.0, 2.0, 5.0]}
inputsinstances 相同,但键不同。
{"inputs": [["Cheese"], ["and", "Crackers"]]}
示例
# Prerequisite: serve a custom pyfunc OpenAI model (not mlflow.openai) on localhost:5678
# that defines inputs in the below format and params of `temperature` and `max_tokens`

import json
import requests

payload = json.dumps(
{
"inputs": {"messages": [{"role": "user", "content": "Tell a joke!"}]},
"params": {
"temperature": 0.5,
"max_tokens": 20,
},
}
)
response = requests.post(
url=f"http://localhost:5678/invocations",
data=payload,
headers={"Content-Type": "application/json"},
)
print(response.json())

JSON 输入还可以包含一个可选的 params 字段,用于传递额外参数。有效的参数类型为 Union[DataType, List[DataType], None],其中 DataType 为 MLflow 数据类型。要传递参数,必须定义带有 params 的有效 模型签名

curl http://127.0.0.1:5000/invocations -H 'Content-Type: application/json' -d '{
"inputs": {"question": ["What color is it?"],
"context": ["Some people said it was green but I know that it is pink."]},
"params": {"max_answer_len": 10}
}'
注意

由于 JSON 会丢弃类型信息,如果模型模式可用,MLflow 会将 JSON 输入转换为模式中指定的输入类型。如果您的模型对输入类型敏感,建议为模型提供一个模式,以确保在推理时不会发生类型不匹配错误。特别是深度学习模型通常对输入类型要求严格,需要模型模式才能正确评分。对于复杂数据类型,请参阅下面的编码复杂数据

原始负载字典

如果您的负载格式是 mlflow 服务模型能够接受的格式,并且在下面列出的支持模型中,您可以传递原始负载字典。

支持的请求格式描述示例
OpenAI ChatOpenAI chat 请求负载
{
"messages": [{"role": "user", "content": "Tell a joke!"}], # noqa
"temperature": 0.0,
}

† 请注意,在使用 OpenAI API 时,不应包含 model 参数,因为其配置由 MLflow 模型实例设置。所有其他参数均可自由使用,前提是它们已在已记录模型签名的 params 参数中定义。

示例
# Prerequisite: serve a Pyfunc model accepts OpenAI-compatible chat requests on localhost:5678 that defines
# `temperature` and `max_tokens` as parameters within the logged model signature

import json
import requests

payload = json.dumps(
{
"messages": [{"role": "user", "content": "Tell a joke!"}],
"temperature": 0.5,
"max_tokens": 20,
}
)
requests.post(
url=f"http://localhost:5678/invocations",
data=payload,
headers={"Content-Type": "application/json"},
)
print(requests.json())

编码复杂数据

复杂数据类型(如日期或二进制数据)没有原生的 JSON 表示。如果您包含模型签名,MLflow 可以自动从 JSON 解码支持的数据类型。支持以下数据类型转换

  • binary:数据应为 base64 编码,MLflow 将自动进行 base64 解码。

  • datetime:数据应根据 ISO 8601 规范 编码为字符串。MLflow 将在给定平台上将其解析为相应的 datetime 表示形式。

请求示例

# record-oriented DataFrame input with binary column "b"
curl http://127.0.0.1:5000/invocations -H 'Content-Type: application/json' -d '[
{"a": 0, "b": "dGVzdCBiaW5hcnkgZGF0YSAw"},
{"a": 1, "b": "dGVzdCBiaW5hcnkgZGF0YSAx"},
{"a": 2, "b": "dGVzdCBiaW5hcnkgZGF0YSAy"}
]'

# record-oriented DataFrame input with datetime column "b"
curl http://127.0.0.1:5000/invocations -H 'Content-Type: application/json' -d '[
{"a": 0, "b": "2020-01-01T00:00:00Z"},
{"a": 1, "b": "2020-02-01T12:34:56Z"},
{"a": 2, "b": "2021-03-01T00:00:00Z"}
]'

Serving 框架

默认情况下,MLflow 使用 FastAPI(一个现代的 Python ASGI Web 应用程序框架)来提供推理端点服务。FastAPI 异步处理请求,被认为是速度最快的 Python 框架之一。这个生产就绪的框架适用于大多数用例。此外,MLflow 还集成了 MLServer 作为替代的 serving 引擎。MLServer 通过利用异步请求/响应模式和工作负载卸载来实现更高的性能和可伸缩性。MLServer 也被用作 Kubernetes 原生框架(如 Seldon CoreKServe(以前称为 KFServing))中的核心 Python 推理服务器,因此其提供了诸如金丝雀部署和自动扩展等高级功能。

用例标准用例,包括本地测试。大规模生产环境。
设置FastAPI 默认随 MLflow 安装。需要单独安装。
性能FastAPI 本地支持异步请求处理,非常适合 I/O 密集型任务,包括机器学习工作负载。有关与其他 Python 框架的基准测试和比较,请参阅 FastAPI 基准测试专为高性能机器学习工作负载设计,通常提供更好的吞吐量和效率。MLServer 支持异步请求/响应模式,通过将机器学习推理工作负载卸载到单独的工作池(进程),以便服务器在处理推理的同时可以继续接受新请求。有关它们如何实现此目的的更多详细信息,请参阅 MLServer Parallel Inference。此外,MLServer 支持 自适应批处理,透明地将请求批量处理在一起,以提高吞吐量和效率。
可伸缩性虽然 FastAPI 在分布式环境中总体上运行良好,但 MLflow 仅使用 uvicorn 运行它,并且不直接支持横向扩展。除了上述对并行推理的支持外,MLServer 还被用作 Kubernetes 原生框架(如 Seldon CoreKServe(以前称为 KFServing))中的核心推理服务器。通过使用 MLServer 将MLflow 模型部署到 Kubernetes,您可以利用这些框架的高级功能(如自动扩展)来实现高可伸缩性。

MLServer 通过 /invocations 端点暴露相同的评分 API。要使用 MLServer 进行部署,首先使用 pip install mlflow[extras] 安装额外依赖项,然后使用 --enable-mlserver 选项执行部署命令。例如,

mlflow models serve -m runs:/<run_id>/model -p 5000 --enable-mlserver

要了解更多关于 MLflow 和 MLServer 集成的信息,请查看 MLServer 文档中的端到端示例。您还可以在将模型部署到 Kubernetes 中找到使用 MLServer 将 MLflow 模型部署到 Kubernetes 集群的指南。

运行批量推理

除了运行在线推理端点,您还可以使用 mlflow models predict 命令对本地文件执行单个批量推理作业。以下命令将对 input.csv 运行模型预测,并将结果输出到 output.csv

mlflow models predict -m runs:/<run_id>/model -i input.csv -o output.csv

故障排除