Artifact Stores
Artifact Store 是 MLflow Tracking 中的核心组件,MLflow 在其中存储每次运行的(通常是大型)Artifact,例如模型权重(如序列化的 scikit-learn 模型)、图像(如 PNG)以及模型和数据文件(如 Parquet 文件)。请注意,参数、指标和标签等元数据存储在 Backend Store(例如,PostGres、MySQL 或 MSSQL 数据库)中,这是 MLflow Tracking 的另一个组件。
配置 Artifact Store
MLflow 默认将 Artifact 存储在本地(文件系统)的 ./mlruns 目录中,但也支持适合大数据的各种位置:Amazon S3、Azure Blob Storage、Google Cloud Storage、SFTP 服务器和 NFS。您可以通过 MLflow Tracking 服务器连接这些远程存储。有关如何连接到您选择的远程存储的指导,请参阅 Tracking Server 设置 和您存储的特定部分 支持的存储。
管理 Artifact Store 访问
为了让服务器和客户端能够访问 Artifact 位置,您应该像访问其他任何地方一样配置您的云提供商凭据。例如,对于 S3,您可以设置 AWS_ACCESS_KEY_ID 和 AWS_SECRET_ACCESS_KEY 环境变量,使用 IAM 角色,或者在 ~/.aws/credentials 中配置默认配置文件。
Artifact 存储位置的凭据和配置的访问权限是在跟踪服务器初始化期间一次性配置的,而不是必须通过客户端 API 为基于 Artifact 的操作提供访问凭据。请注意,在此模式下能够访问跟踪服务器的所有用户都将能够访问通过此假设角色提供的 Artifact。
设置访问超时
您可以设置环境变量 MLFLOW_ARTIFACT_UPLOAD_DOWNLOAD_TIMEOUT(以秒为单位)来配置 Artifact 上传和下载的超时时间。如果未设置,MLflow 将使用底层存储客户端库(例如 S3 的 boto3)的默认超时时间。请注意,这是一个实验性功能,可能会根据需要进行修改。
为日志记录设置默认 Artifact 位置
MLflow 会自动将 artifact_uri 属性记录为 mlflow.entities.RunInfo 的一部分,以便您可以使用 mlflow.get_artifact_uri() API 检索历史运行的 Artifact 位置。此外,artifact_location 是记录在 mlflow.entities.Experiment 上的属性,用于为给定实验中所有模型的运行设置默认 Artifact 存储位置。
如果您在创建实验时未指定 --default-artifact-root 或 Artifact URI(例如,mlflow experiments create --artifact-location s3://<my-bucket>),则 Artifact 根目录将设置为本地文件存储中的一个路径(执行运行的计算机的硬盘)。这通常不是一个合适的位置,因为客户端和服务器可能指的是不同的物理位置(即,不同磁盘或计算机上的相同路径)。
Artifact Store 支持的存储类型
Amazon S3 和 S3 兼容存储
要在 S3 中存储 Artifact(无论是 Amazon S3 还是 S3 兼容的替代品,例如 MinIO 或 Digital Ocean Spaces),请指定 s3://<bucket>/<path> 形式的 URI。MLflow 从您计算机的 IAM 角色、~/.aws/credentials 中的配置文件或 AWS_ACCESS_KEY_ID 和 AWS_SECRET_ACCESS_KEY 环境变量中获取访问 S3 的凭据,具体取决于这些凭据中的哪一项可用。有关如何设置凭据的更多信息,请参阅 设置 AWS 凭据和区域以进行开发。
以下是配置 S3 存储访问常用的环境变量。S3 客户端可配置参数的完整列表可在 boto3 文档 中找到。
向 S3 上传传递额外参数
要添加 S3 文件上传的额外参数,请将 MLFLOW_S3_UPLOAD_EXTRA_ARGS 设置为键/值对的 JSON 对象。例如,如果您想使用 KMS 密钥 1234 上传到 KMS 加密存储桶
export MLFLOW_S3_UPLOAD_EXTRA_ARGS='{"ServerSideEncryption": "aws:kms", "SSEKMSKeyId": "1234"}'
有关可用额外参数的列表,请参阅 Boto3 ExtraArgs 文档。
设置自定义 S3 端点
要在自定义端点中存储 Artifact,请将 MLFLOW_S3_ENDPOINT_URL 设置为您的端点的 URL。例如,如果您使用的是 Digital Ocean Spaces
export MLFLOW_S3_ENDPOINT_URL=https://<region>.digitaloceanspaces.com
如果您在 1.2.3.4 的 9000 端口上有一个 MinIO 服务器
export MLFLOW_S3_ENDPOINT_URL=http://1.2.3.4:9000
使用非 TLS 认证
如果 MinIO 服务器配置为使用 SSL 自签名证书或使用某种内部专用 CA 证书签名,您可以设置 MLFLOW_S3_IGNORE_TLS 或 AWS_CA_BUNDLE 变量(不要同时设置两个!),分别禁用证书签名检查,或添加自定义 CA 捆绑包来执行此检查。
export MLFLOW_S3_IGNORE_TLS=true
#or
export AWS_CA_BUNDLE=/some/ca/bundle.pem
设置存储桶区域
此外,如果 MinIO 服务器配置为使用非默认区域,您应该设置 AWS_DEFAULT_REGION 变量。
export AWS_DEFAULT_REGION=my_region
MLflow 跟踪服务器使用特定的保留关键字来生成合格路径。如果这些环境变量存在于客户端环境中,可能会导致路径解析问题。例如,在服务器端提供 --default-artifact-root $MLFLOW_S3_ENDPOINT_URL并且 在客户端环境中提供 MLFLOW_S3_ENDPOINT_URL 将导致客户端 Artifact 存储位置的路径解析问题。在解析 Artifact 存储位置时,MLflow 客户端将使用 --default-artifact-root 提供的值,并将值附加到环境变量 MLFLOW_S3_ENDPOINT_URL 中提供的值。根据环境变量 MLFLOW_S3_ENDPOINT_URL 的设置值,此场景下生成的 Artifact 存储路径将是以下无效对象存储路径之一:https://<bucketname>.s3.<region>.amazonaws.com/<key>/<bucketname>/<key> 或 s3://<bucketname>/<key>/<bucketname>/<key>。为防止路径解析问题,请确保从客户端环境中移除(unset)保留的环境变量。
Azure Blob Storage
要在 Azure Blob Storage 中存储 Artifact,请指定 wasbs://<container>@<storage-account>.blob.core.windows.net/<path> 形式的 URI。MLflow 期望您的 Azure 存储访问凭据位于 AZURE_STORAGE_CONNECTION_STRING 和 AZURE_STORAGE_ACCESS_KEY 环境变量中,或者您的凭据已配置,以便 DefaultAzureCredential() 类能够获取它们。优先级顺序为:
AZURE_STORAGE_CONNECTION_STRINGAZURE_STORAGE_ACCESS_KEYDefaultAzureCredential()
您必须在您的客户端应用程序和 MLflow 跟踪服务器上设置其中一个选项。此外,您必须单独运行 pip install azure-storage-blob(在客户端和服务器上)才能访问 Azure Blob Storage。最后,如果您想使用 DefaultAzureCredential,则必须 pip install azure-identity;MLflow 默认不声明对这些包的依赖。
您可以设置一个 MLflow 环境变量来配置 Artifact 上传和下载的超时时间
MLFLOW_ARTIFACT_UPLOAD_DOWNLOAD_TIMEOUT-(实验性,可能会更改或移除)设置 Artifact 上传/下载的超时时间(秒)(默认值:Azure Blob 为 600)。
Google Cloud Storage
要在 Google Cloud Storage 中存储 Artifact,请指定 gs://<bucket>/<path> 形式的 URI。您应该按照 GCS 文档 中所述,在客户端和服务器上配置访问 GCS 存储桶的凭据。最后,您必须分别在客户端和服务器上运行 pip install google-cloud-storage 才能访问 Google Cloud Storage;MLflow 默认不声明对该包的依赖。
您可以通过一些 MLflow 环境变量来设置,以解决 GCS 读取超时问题(例如,由于传输速度慢)
MLFLOW_ARTIFACT_UPLOAD_DOWNLOAD_TIMEOUT-(实验性,可能会更改或移除)设置传输操作的标准超时时间(秒)(默认值:GCS 为 60)。使用 -1 表示无限超时。MLFLOW_GCS_UPLOAD_CHUNK_SIZE- 设置用于较大文件的标准上传块大小(字节)(默认值:104857600 ≙ 100MiB),必须是 256 KB 的倍数。MLFLOW_GCS_DOWNLOAD_CHUNK_SIZE- 设置用于较大文件的标准下载块大小(字节)(默认值:104857600 ≙ 100MiB),必须是 256 KB 的倍数。
FTP 服务器
要在 FTP 服务器中存储 Artifact,请指定 ftp://user@host/path/to/directory 形式的 URI。URI 可以选择性地包含登录服务器的密码,例如 ftp://user:pass@host/path/to/directory。
SFTP 服务器
要在 SFTP 服务器中存储 Artifact,请指定 sftp://user@host/path/to/directory 形式的 URI。您应该配置客户端,使其能够通过 SSH 无密码登录 SFTP 服务器(例如,公钥、ssh_config 中的身份文件等)。
支持 sftp://user:pass@host/ 格式进行登录。但是,出于安全原因,不建议这样做。
使用此存储时,pysftp 必须安装在服务器和客户端上。运行 pip install pysftp 来安装所需包。
NFS
要在 NFS 挂载中存储 Artifact,请指定一个正常的路径作为 URI,例如 /mnt/nfs。此路径在服务器和客户端上必须相同——您可能需要使用符号链接或重新挂载客户端以强制执行此属性。
HDFS
要在 HDFS 中存储 Artifact,请指定 hdfs: URI。它可以包含主机和端口:hdfs://<host>:<port>/<path> 或仅路径:hdfs://<path>。
还有两种方法可以向 HDFS 进行身份验证
- 使用当前的 UNIX 帐户授权
- 使用以下环境变量的 Kerberos 凭据
export MLFLOW_KERBEROS_TICKET_CACHE=/tmp/krb5cc_22222222
export MLFLOW_KERBEROS_USER=user_name_to_use
HDFS Artifact Store 使用 pyarrow.fs 模块访问,请参阅 PyArrow 文档 以获取所需的配置和环境变量。
删除行为
为了能够恢复 MLflow 运行,当运行被删除时,运行元数据和 Artifact 不会自动从 Backend Store 或 Artifact Store 中移除。提供 mlflow gc CLI 用于永久删除已删除运行的运行元数据和 Artifact。
用于代理 Artifact 访问的多部分上传
跟踪服务器支持使用多部分上传为代理 Artifact 访问上传大型 Artifact。要启用此功能,请将 MLFLOW_ENABLE_PROXY_MULTIPART_UPLOAD 设置为 true。
export MLFLOW_ENABLE_PROXY_MULTIPART_UPLOAD=true
在底层,跟踪服务器将创建一个多部分上传请求与底层存储,为每个部分生成预签名的 URL,并允许客户端直接将部分上传到存储。所有部分上传完成后,跟踪服务器将完成多部分上传。数据不会经过跟踪服务器。
如果底层存储不支持多部分上传,跟踪服务器将回退到单部分上传。如果支持多部分上传但因任何原因失败,将抛出异常。
MLflow 支持以下存储的代理 Artifact 访问的多部分上传
- Amazon S3
- Google Cloud Storage
您可以配置以下环境变量
MLFLOW_MULTIPART_UPLOAD_MINIMUM_FILE_SIZE- 指定使用多部分上传记录 Artifact 的最小文件大小(字节)(默认值:500 MB)MLFLOW_MULTIPART_UPLOAD_CHUNK_SIZE- 指定执行多部分上传时使用的块大小(字节)(默认值:100 MB)