工件存储
工件存储是 MLflow Tracking 中的一个核心组件,MLflow 在其中存储(通常是大型)每个运行的工件,例如模型权重(例如,经过 pickle 序列化的 scikit-learn 模型)、图像(例如 PNG 文件)、模型和数据文件(例如 Parquet 文件)。请注意,参数、指标和标签等元数据存储在 后端存储(例如 PostgreSQL、MySQL 或 MSSQL 数据库)中,这是 MLflow Tracking 的另一个组件。
配置工件存储
MLflow 默认将工件存储在本地(文件系统)的 ./mlruns
目录中,但也支持适用于大型数据的各种位置:Amazon S3、Azure Blob 存储、Google Cloud 存储、SFTP 服务器和 NFS。您可以通过 MLflow Tracking 服务器连接这些远程存储。有关如何连接到您选择的远程存储的指导,请参阅跟踪服务器设置以及支持的存储中针对您的存储的特定部分。
管理工件存储访问
为了允许服务器和客户端访问工件位置,您应该像访问任何其他容量一样配置您的云提供商凭据。例如,对于 S3,您可以设置 AWS_ACCESS_KEY_ID
和 AWS_SECRET_ACCESS_KEY
环境变量,使用 IAM 角色,或在 ~/.aws/credentials
中配置默认配置文件。
工件存储位置的凭据和配置的访问权限是在跟踪服务器初始化期间一次性配置的,而不是必须通过客户端 API 为基于工件的操作提供访问凭据。请注意,在这种模式下,所有有权访问跟踪服务器的用户都将有权访问通过此假定角色提供的工件。
设置访问超时
您可以设置环境变量 MLFLOW_ARTIFACT_UPLOAD_DOWNLOAD_TIMEOUT
(以秒为单位)来配置工件上传和下载的超时时间。如果未设置,MLflow 将使用底层存储客户端库的默认超时时间(例如 S3 的 boto3)。请注意,这是一个实验性功能,可能会根据需要进行修改。
设置默认工件日志位置
MLflow 自动将 artifact_uri
属性作为 mlflow.entities.RunInfo
的一部分记录下来,以便您可以使用 mlflow.get_artifact_uri()
API 检索历史运行的工件位置。此外,artifact_location
是 mlflow.entities.Experiment
上记录的一个属性,用于设置给定实验中所有模型运行的默认工件存储位置。
如果您在创建实验时未指定 --default-artifact-root
或工件 URI(例如,mlflow experiments create --artifact-location s3://<my-bucket>
),则工件根目录将设置为本地文件存储(执行运行的计算机硬盘)内的一个路径。通常这不是一个合适的位置,因为客户端和服务器可能指向不同的物理位置(即,不同磁盘或计算机上的相同路径)。
工件存储支持的存储类型
Amazon S3 和 S3 兼容存储
要将工件存储在 S3 中(无论是 Amazon S3 还是 S3 兼容的替代方案,例如 MinIO 或 Digital Ocean Spaces),请指定形式为 s3://<bucket>/<path>
的 URI。MLflow 根据机器的 IAM 角色、~/.aws/credentials
中的配置文件或环境变量 AWS_ACCESS_KEY_ID
和 AWS_SECRET_ACCESS_KEY
中的可用项获取访问 S3 的凭据。有关如何设置凭据的更多信息,请参阅设置 AWS 开发凭据和区域。
以下是用于配置 S3 存储访问的常用环境变量。S3 客户端可配置参数的完整列表可在 boto3 文档中找到。
将额外参数传递给 S3 上传
要添加 S3 文件上传额外参数,请将 MLFLOW_S3_UPLOAD_EXTRA_ARGS
设置为键/值对的 JSON 对象。例如,如果要使用 KMS 密钥 1234 上传到 KMS 加密桶
export MLFLOW_S3_UPLOAD_EXTRA_ARGS='{"ServerSideEncryption": "aws:kms", "SSEKMSKeyId": "1234"}'
有关可用额外参数的列表,请参阅 Boto3 ExtraArgs 文档。
设置自定义 S3 端点
要将工件存储在自定义端点中,请将 MLFLOW_S3_ENDPOINT_URL
设置为您的端点 URL。例如,如果您正在使用 Digital Ocean Spaces
export MLFLOW_S3_ENDPOINT_URL=https://<region>.digitaloceanspaces.com
如果您在 1.2.3.4 的 9000 端口上有一个 MinIO 服务器
export MLFLOW_S3_ENDPOINT_URL=http://1.2.3.4:9000
使用非 TLS 认证
如果 MinIO 服务器配置为使用 SSL 自签名或通过内部 CA 证书签名,您可以设置 MLFLOW_S3_IGNORE_TLS
或 AWS_CA_BUNDLE
变量(不能同时设置!)以禁用证书签名检查,或添加自定义 CA 捆绑包来执行此检查,具体取决于您的需求
export MLFLOW_S3_IGNORE_TLS=true
#or
export AWS_CA_BUNDLE=/some/ca/bundle.pem
设置桶区域
此外,如果 MinIO 服务器配置了非默认区域,您应该设置 AWS_DEFAULT_REGION
变量
export AWS_DEFAULT_REGION=my_region
MLflow 跟踪服务器利用特定的保留关键字来生成合格路径。这些环境配置,如果存在于客户端环境中,可能会导致路径解析问题。例如,在服务器端提供 --default-artifact-root $MLFLOW_S3_ENDPOINT_URL
并且在客户端提供 MLFLOW_S3_ENDPOINT_URL
将导致工件存储位置的客户端路径解析问题。解决工件存储位置时,MLflow 客户端将使用 --default-artifact-root
提供的值,并以环境变量 MLFLOW_S3_ENDPOINT_URL
中提供的值作为后缀。根据环境变量 MLFLOW_S3_ENDPOINT_URL
的设置值,此场景下的最终工件存储路径将是以下无效对象存储路径之一:https://<bucketname>.s3.<region>.amazonaws.com/<key>/<bucketname>/<key>
或 s3://<bucketname>/<key>/<bucketname>/<key>
。为防止路径解析问题,请确保从客户端环境中删除(unset
)保留环境变量。
Azure Blob 存储
要将工件存储在 Azure Blob 存储中,请指定形式为 wasbs://<container>@<storage-account>.blob.core.windows.net/<path>
的 URI。MLflow 要求您的 Azure 存储访问凭据位于 AZURE_STORAGE_CONNECTION_STRING
和 AZURE_STORAGE_ACCESS_KEY
环境变量中,或者您的凭据配置方式能够被 DefaultAzureCredential() 类获取。优先级顺序为
AZURE_STORAGE_CONNECTION_STRING
AZURE_STORAGE_ACCESS_KEY
DefaultAzureCredential()
您必须在客户端应用程序和 MLflow 跟踪服务器上设置这些选项中的一个。此外,您必须单独运行 pip install azure-storage-blob
(在客户端和服务器上)才能访问 Azure Blob 存储。最后,如果您想使用 DefaultAzureCredential,您必须 pip install azure-identity
;MLflow 默认不声明对这些包的依赖。
您可以设置 MLflow 环境变量来配置工件上传和下载的超时时间
MLFLOW_ARTIFACT_UPLOAD_DOWNLOAD_TIMEOUT
- (实验性,可能会更改或删除) 设置工件上传/下载的超时时间(以秒为单位)(默认值:Azure blob 为 600)。
Google Cloud Storage
要将工件存储在 Google Cloud Storage 中,请指定形式为 gs://<bucket>/<path>
的 URI。您应该按照 GCS 文档中的说明,在客户端和服务器上配置访问 GCS 容器的凭据。最后,您必须运行 pip install google-cloud-storage
(在客户端和服务器上)才能访问 Google Cloud Storage;MLflow 默认不声明对该包的依赖。
您可以使用以下变量设置一些 MLflow 环境变量来解决 GCS 读取超时问题(例如,由于传输速度慢)
MLFLOW_ARTIFACT_UPLOAD_DOWNLOAD_TIMEOUT
- (实验性,可能会更改或删除)设置传输操作的标准超时时间(以秒为单位)(默认值:GCS 为 60)。使用 -1 表示无限超时。MLFLOW_GCS_UPLOAD_CHUNK_SIZE
- 设置较大文件上传的标准分块大小(以字节为单位)(默认值:104857600 ≙ 100 MiB),必须是 256 KB 的倍数。MLFLOW_GCS_DOWNLOAD_CHUNK_SIZE
- 设置较大文件下载的标准分块大小(以字节为单位)(默认值:104857600 ≙ 100 MiB),必须是 256 KB 的倍数
FTP 服务器
要将工件存储在 FTP 服务器中,请指定形式为 ftp://user@host/path/to/directory 的 URI。URI 可以选择包含用于登录服务器的密码,例如 ftp://user:pass@host/path/to/directory
SFTP 服务器
要将工件存储在 SFTP 服务器中,请指定形式为 sftp://user@host/path/to/directory
的 URI。您应该配置客户端,使其能够通过 SSH 无密码登录到 SFTP 服务器(例如,公钥,ssh_config 中的身份文件等)。
支持 sftp://user:pass@host/
格式的登录。但是,出于安全原因,不建议使用此方法。
使用此存储时,服务器和客户端都必须安装 pysftp
。运行 pip install pysftp
安装所需的包。
NFS
要将工件存储在 NFS 挂载点中,请将 URI 指定为正常的 文件系统路径,例如 /mnt/nfs
。此路径在服务器和客户端上必须相同——您可能需要使用符号链接或重新挂载客户端以强制执行此属性。
HDFS
要将工件存储在 HDFS 中,请指定 hdfs:
URI。它可以包含主机和端口:hdfs://<host>:<port>/<path>
或仅包含路径:hdfs://<path>
。
还有两种验证 HDFS 的方法
- 使用当前 UNIX 账户授权
- 使用以下环境变量的 Kerberos 凭据
export MLFLOW_KERBEROS_TICKET_CACHE=/tmp/krb5cc_22222222
export MLFLOW_KERBEROS_USER=user_name_to_use
HDFS 工件存储通过 pyarrow.fs
模块访问,有关所需的配置和环境变量,请参阅 PyArrow 文档。
删除行为
为了允许恢复 MLflow 运行,在删除运行后,运行元数据和工件不会自动从后端存储或工件存储中删除。提供了 mlflow gc CLI,用于永久删除已删除运行的元数据和工件。
代理工件访问的多部分上传
此功能为实验性功能,可能会在未来的版本中更改或删除,恕不另行通知。
跟踪服务器支持使用多部分上传功能来上传大型工件,以实现代理工件访问。要启用此功能,请将 MLFLOW_ENABLE_PROXY_MULTIPART_UPLOAD
设置为 true
。
export MLFLOW_ENABLE_PROXY_MULTIPART_UPLOAD=true
在底层,跟踪服务器将创建针对底层存储的多部分上传请求,为每个部分生成预签名 URL,并让客户端直接将这些部分上传到存储。一旦所有部分都上传完毕,跟踪服务器将完成多部分上传。任何数据都不会通过跟踪服务器。
如果底层存储不支持多部分上传,跟踪服务器将退回到单部分上传。如果支持多部分上传但因任何原因失败,则会抛出异常。
MLflow 支持以下存储的代理工件访问的多部分上传:
- Amazon S3
- Google Cloud Storage
您可以配置以下环境变量
MLFLOW_MULTIPART_UPLOAD_MINIMUM_FILE_SIZE
- 指定记录工件时使用多部分上传的最小文件大小(以字节为单位)(默认值:500 MB)MLFLOW_MULTIPART_UPLOAD_CHUNK_SIZE
- 指定执行多部分上传时使用的分块大小(以字节为单位)(默认值:100 MB)