跳到主要内容

Artifact Stores

Artifact Store 是 MLflow Tracking 中的一个核心组件,MLflow 在其中存储每个运行的(通常较大的)工件,例如模型权重(例如 pickl化的 scikit-learn 模型)、图像(例如 PNGs)、模型和数据文件(例如 Parquet 文件)。请注意,诸如参数、指标和标签之类的元数据存储在 backend store(例如 PostGres、MySQL 或 MSSQL 数据库)中,它是 MLflow Tracking 的另一个组件。

配置 Artifact Store

MLflow 默认将工件存储在本地(文件系统)./mlruns 目录中,但也支持适用于大数据的各种位置:Amazon S3、Azure Blob Storage、Google Cloud Storage、SFTP 服务器和 NFS。您可以通过 MLflow Tracking 服务器连接这些远程存储。请参阅 tracking server setupsupported storages 中针对您的存储的特定部分,以获取有关如何连接到所选远程存储的指导。

管理 Artifact Store 访问

要允许服务器和客户端访问工件位置,您应该像在任何其他情况下访问云提供商凭据一样配置它们。例如,对于 S3,您可以设置 AWS_ACCESS_KEY_IDAWS_SECRET_ACCESS_KEY 环境变量,使用 IAM 角色,或在 ~/.aws/credentials 中配置默认配置文件。

重要提示

工件存储位置的凭据和配置访问是在初始化 tracking server 时一次性配置的,而不是要求客户端 API 为基于工件的操作提供访问凭据。请注意,在此模式下有权访问 Tracking Server 的所有用户都将可以访问通过此假定的角色提供的工件

设置访问超时

您可以设置环境变量 MLFLOW_ARTIFACT_UPLOAD_DOWNLOAD_TIMEOUT(以秒为单位)来配置工件上传和下载的超时时间。如果未设置,MLflow 将使用底层存储客户端库的默认超时时间(例如 S3 的 boto3)。请注意,这是一个实验性功能,可能会根据需要进行修改。

为日志记录设置默认 Artifact 位置

MLflow 会自动记录 artifact_uri 属性作为 mlflow.entities.RunInfo 的一部分,以便您可以使用 mlflow.get_artifact_uri() API 检索历史运行的工件位置。此外,artifact_location 是记录在 mlflow.entities.Experiment 上的属性,用于设置默认位置,以便为给定实验中所有模型的运行存储工件。

重要提示

如果您在创建实验时未指定 --default-artifact-root 或 artifact URI(例如 mlflow experiments create --artifact-location s3://<my-bucket>),则 artifact root 将设置为本地文件存储(执行运行的计算机的硬盘)中的路径。这通常不是一个合适的位置,因为客户端和服务器可能引用不同的物理位置(即,不同磁盘或计算机上的同一路径)。

Artifact Store 支持的存储类型

Amazon S3 和 S3 兼容存储

要在 S3(无论是在 Amazon S3 上还是在 S3 兼容的替代方案上,例如 MinIODigital Ocean Spaces)中存储工件,请指定 s3://<bucket>/<path> 形式的 URI。MLflow 从您机器的 IAM 角色、~/.aws/credentials 中的配置文件或环境变量 AWS_ACCESS_KEY_IDAWS_SECRET_ACCESS_KEY 中获取访问 S3 的凭据,具体取决于其中哪些可用。有关如何设置凭据的更多信息,请参阅 Set up AWS Credentials and Region for Development

以下是常用于配置 S3 存储访问的环境变量。S3 客户端的可配置参数的完整列表可在 boto3 文档中找到。

向 S3 上传传递额外参数

要向 S3 文件上传添加额外参数,请将 MLFLOW_S3_UPLOAD_EXTRA_ARGS 设置为键/值对的 JSON 对象。例如,如果您想上传到使用 KMS 密钥 1234 的 KMS 加密存储桶

bash
export MLFLOW_S3_UPLOAD_EXTRA_ARGS='{"ServerSideEncryption": "aws:kms", "SSEKMSKeyId": "1234"}'

有关可用额外参数的列表,请参阅 Boto3 ExtraArgs 文档

存储桶所有权验证

为防止存储桶被不同 AWS 帐户重新创建的存储桶劫持攻击,您可以将 MLFLOW_S3_EXPECTED_BUCKET_OWNER 设置为预期拥有您的 S3 存储桶的 AWS 帐户 ID

bash
export MLFLOW_S3_EXPECTED_BUCKET_OWNER=123456789012

设置后,MLflow 将在所有 S3 API 调用中包含 ExpectedBucketOwner 参数。如果存储桶由其他帐户拥有,S3 将拒绝操作并返回访问被拒绝错误,从而防止对工件的未经授权的访问。

这在以下情况下尤为重要

  • S3 存储桶名称在所有 AWS 帐户中都是全局唯一的
  • 攻击者可能会删除并使用相同名称重新创建存储桶
  • MLflow 可能会在不知情的情况下将工件发送到攻击者的存储桶

有关更多信息,请参阅 AWS S3 存储桶所有者条件文档

设置自定义 S3 端点

要将工件存储到自定义端点,请将 MLFLOW_S3_ENDPOINT_URL 设置为端点的 URL。例如,如果您使用的是 Digital Ocean Spaces

bash
export MLFLOW_S3_ENDPOINT_URL=https://<region>.digitaloceanspaces.com

如果您的 MinIO 服务器位于 1.2.3.4 端口 9000

bash
export MLFLOW_S3_ENDPOINT_URL=http://1.2.3.4:9000

使用非 TLS 身份验证

如果 MinIO 服务器配置为使用 SSL 自签名或使用某些仅限内部的 CA 证书签名,您可以设置 MLFLOW_S3_IGNORE_TLSAWS_CA_BUNDLE 变量(不能同时设置两者!)来禁用证书签名检查,或添加自定义 CA 捆绑包以分别执行此检查

bash
export MLFLOW_S3_IGNORE_TLS=true
#or
export AWS_CA_BUNDLE=/some/ca/bundle.pem

设置存储桶区域

此外,如果 MinIO 服务器配置了非默认区域,您应该设置 AWS_DEFAULT_REGION 变量

bash
export AWS_DEFAULT_REGION=my_region
警告

MLflow tracking server 利用特定的保留关键字来生成合格的路径。如果这些环境配置存在于客户端环境中,可能会导致路径解析问题。例如,在服务器端提供 --default-artifact-root $MLFLOW_S3_ENDPOINT_URL 并在客户端提供 MLFLOW_S3_ENDPOINT_URL 将导致工件存储位置的客户端路径解析问题。解析工件存储位置后,MLflow 客户端将使用 --default-artifact-root 提供的值,并以环境变量 MLFLOW_S3_ENDPOINT_URL 中提供的值作为后缀附加到该位置。根据为环境变量 MLFLOW_S3_ENDPOINT_URL 设置的值,此场景下生成的工件存储路径将是以下无效对象存储路径之一:https://<bucketname>.s3.<region>.amazonaws.com/<key>/<bucketname>/<key>s3://<bucketname>/<key>/<bucketname>/<key>。为防止路径解析问题,请确保从客户端环境中删除(unset)保留的环境变量

Azure Blob Storage

要在 Azure Blob Storage 中存储工件,请指定 wasbs://<container>@<storage-account>.blob.core.windows.net/<path> 形式的 URI。MLflow 期望您的 Azure 存储访问凭据位于 AZURE_STORAGE_CONNECTION_STRINGAZURE_STORAGE_ACCESS_KEY 环境变量中,或者您的凭据已配置,以便 DefaultAzureCredential() 类可以获取它们。优先级顺序如下:

  1. AZURE_STORAGE_CONNECTION_STRING
  2. AZURE_STORAGE_ACCESS_KEY
  3. DefaultAzureCredential()

您必须在客户端应用程序和 MLflow tracking server上设置其中一个选项。此外,您必须单独运行 pip install azure-storage-blob(在客户端和服务器上)才能访问 Azure Blob Storage。最后,如果您想使用 DefaultAzureCredential,则必须运行 pip install azure-identity;MLflow 默认不声明对这些包的依赖。

您可以设置 MLflow 环境变量来配置工件上传和下载的超时时间

  • MLFLOW_ARTIFACT_UPLOAD_DOWNLOAD_TIMEOUT -(实验性,可能会更改或删除)以秒为单位设置工件上传/下载的超时时间(Azure blob 的默认值:600)。

Google Cloud Storage

要在 Google Cloud Storage 中存储工件,请指定 gs://<bucket>/<path> 形式的 URI。您应该按照 GCS 文档中的说明,在客户端和服务器上配置访问 GCS 容器的凭据。最后,您必须分别运行 pip install google-cloud-storage(在客户端和服务器上)才能访问 Google Cloud Storage;MLflow 默认不声明对该包的依赖。

您可能设置一些 MLflow 环境变量,以使用以下变量来排查 GCS 读取超时问题(例如,由于传输速度慢):

  • MLFLOW_ARTIFACT_UPLOAD_DOWNLOAD_TIMEOUT -(实验性,可能会更改或删除)以秒为单位设置传输操作的标准超时时间(GCS 的默认值:60)。使用 -1 表示无限超时。
  • MLFLOW_GCS_UPLOAD_CHUNK_SIZE - 以字节为单位设置较大文件的标准上传块大小(默认值:104857600 ≙ 100MiB),必须是 256 KB 的倍数。
  • MLFLOW_GCS_DOWNLOAD_CHUNK_SIZE - 以字节为单位设置较大文件的标准下载块大小(默认值:104857600 ≙ 100MiB),必须是 256 KB 的倍数

FTP 服务器

要在 FTP 服务器中存储工件,请指定 ftp://user@host/path/to/directory 形式的 URI。URI 可选地包含登录服务器的密码,例如 ftp://user:pass@host/path/to/directory

SFTP 服务器

要在 SFTP 服务器中存储工件,请指定 sftp://user@host/path/to/directory 形式的 URI。您应该配置客户端,使其能够通过 SSH(例如公钥、ssh_config 中的身份文件等)在没有密码的情况下登录 SFTP 服务器。

支持 sftp://user:pass@host/ 格式用于登录。但是,出于安全原因,不推荐这样做。

使用此存储时,pysftp 必须安装在服务器和客户端上。运行 pip install pysftp 来安装所需的包。

NFS

要在 NFS 挂载中存储工件,请将 URI 指定为正常的本地文件系统路径,例如 /mnt/nfs。此路径在服务器和客户端上必须相同——您可能需要使用符号链接或重新挂载客户端以强制执行此属性。

HDFS

要在 HDFS 中存储工件,请指定 hdfs: URI。它可以包含主机和端口:hdfs://<host>:<port>/<path> 或仅包含路径:hdfs://<path>

还有两种对 HDFS 进行身份验证的方法

  • 使用当前的 UNIX 帐户授权
  • 使用以下环境变量的 Kerberos 凭据
bash
export MLFLOW_KERBEROS_TICKET_CACHE=/tmp/krb5cc_22222222
export MLFLOW_KERBEROS_USER=user_name_to_use

HDFS 工件存储是使用 pyarrow.fs 模块访问的,请参阅 PyArrow 文档以了解所需的配置和环境变量。

删除行为

为了允许 MLflow 运行被恢复,当一个运行被删除时,运行元数据和工件不会从后端存储或工件存储中自动删除。提供了 mlflow gc CLI 用于永久删除已删除运行的运行元数据和工件。

用于代理工件访问的分块上传

Tracking Server 支持使用分块上传来代理访问大型工件。要启用此功能,请将 MLFLOW_ENABLE_PROXY_MULTIPART_UPLOAD 设置为 true

bash
export MLFLOW_ENABLE_PROXY_MULTIPART_UPLOAD=true

在底层,Tracking Server 将向底层存储创建分块上传请求,为每个部分生成预签名 URL,并让客户端将各个部分直接上传到存储。所有部分上传完成后,Tracking Server 将完成分块上传。任何数据都不会通过 Tracking Server。

如果底层存储不支持分块上传,Tracking Server 将回退到单部分上传。如果支持分块上传但因任何原因失败,将抛出异常。

MLflow 支持以下存储的分块上传,用于代理工件访问

  • Amazon S3
  • Google Cloud Storage

您可以配置以下环境变量

  • MLFLOW_MULTIPART_UPLOAD_MINIMUM_FILE_SIZE - 指定使用分块上传记录工件时的最小文件大小(以字节为单位)(默认值:500 MB)
  • MLFLOW_MULTIPART_UPLOAD_CHUNK_SIZE - 指定执行分块上传时使用的块大小(以字节为单位)(默认值:100 MB)