MLflow 1.28.0

2022年8月11日 ·4分钟阅读

MLflow 维护者

我们很高兴宣布MLflow 1.28.0现已可用！

MLflow 1.28.0 包含几项主要功能和改进

功能

[Pipelines] 在 Pipeline 执行期间，将完整的 Pipeline 运行时配置记录到 MLflow Tracking (#6359, @jinzhang21)
[Pipelines] 添加 pipeline.yaml 配置以指定用于模型注册的 Model Registry 后端 (#6284, @sunishsheth2009)
[Pipelines] 支持可选地跳过 scikit-learn 回归 Pipeline 的 transform 步骤 (#6362, @sunishsheth2009)
[Pipelines] 在 Databricks 上的 Pipeline 步骤卡中添加 Runs 和 Models 的 UI 链接 (#6294, @dbczumar)
[Tracking] 引入 mlflow.search_experiments() API，用于按名称和标签搜索实验 (#6333, @WeichenXu123; #6227, #6172, #6154, @harupy)
[Tracking] 将 File 和 SQL 后端支持的最大参数值长度增加到 500 个字符 (#6358, @johnyNJ)
[Tracking] 为 mlflow gc 引入 --older-than 标志，用于根据删除时间移除 Runs (#6354, @Jason-CKY)
[Tracking] 添加 MLFLOW_SQLALCHEMYSTORE_POOL_RECYCLE 环境变量，用于回收 SQLAlchemy 连接 (#6344, @postrational)
[UI] 在实验页面上的 Runs 表中显示深度嵌套的 Runs (#6065, @tospe)
[UI] 在比较 Runs 页面上添加指标的箱线图可视化 (#6308, @ahlag)
[UI] 在比较 Runs 页面上显示标签 (#6164, @CaioCavalcanti)
[UI] 在对数刻度查看指标图时，对坐标轴使用科学记数法 (#6176, @RajezMariner)
[UI] 在指标页面上添加按钮，用于将指标下载为 CSV (#6048, @rafaelvp-db)
[UI] 在指标页面上的图表中包含 NaN 和 +/- 无限值 (#6422, @hubertzub-db)
[Tracking / Model Registry] 引入环境变量，用于控制 REST API 请求的重试行为和超时 (#5745, @peterdhansen)
[Tracking / Model Registry] 使 MlflowClient 可以作为 mlflow.MlflowClient 导入 (#6085, @subramaniam02)
[Model Registry] 添加按标签搜索注册模型和模型版本的支持 (#6413, #6411, #6320, @WeichenXu123)
[Model Registry] 为 set_model_version_tag() 添加 stage 参数 (#6185, @subramaniam02)
[Model Registry] 为 mlflow server 添加 --registry-store-uri 标志，用于指定 Model Registry 后端 URI (#6142, @Secbone)
[Models] 改进在 Databricks 上记录 Spark Model 的性能 (#6282, @bbarnes52)
[Models] 在推断的模型 Schema 中包含 Pandas Series 名称 (#6361, @RynoXLI)
[Scoring] 使 mlflow models build-docker 中的 model_uri 可选，以支持构建通用模型服务镜像 (#6302, @harupy)
[R] 支持记录 NA 和 NaN 参数值 (#6263, @nathaneastwood)

错误修复和文档更新

[Pipelines] 通过将数据集分析限制在前 100 列，改进 scikit-learn 回归 Pipeline 的延迟 (#6297, @sunishsheth2009)
[Pipelines] 在 Linux 系统上，使用 xdg-open 而非 open 来查看 Pipeline 结果 (#6326, @strangiato)
[Pipelines] 修复了在 Jupyter Notebooks 中跳过步骤卡渲染的错误 (#6378, @apurva-koti)
[Tracking] 在授权失败的 REST API 响应中使用 401 HTTP 响应码，而非 500 (#6106, @balvisio)
[Tracking] 在使用 Azure Blob Storage 时，正确将 Artifacts 分类为文件和目录 (#6237, @nerdinand)
[Tracking] 修复了 File 后端中一个导致写入失败时 Runs 元数据丢失的错误 (#6388, @dbczumar)
[Tracking] 调整 mlflow.pyspark.ml.autolog()，使其仅记录支持的输入/输出数据类型的模型签名 (#6365, @harupy)
[Tracking] 调整 mlflow.tensorflow.autolog()，使其在指定 log_models=False 时记录 TensorFlow 早停回调信息 (#6170, @WeichenXu123)
[Tracking] 修复 mlflow.sklearn.autolog() 中包含 Transformer 的模型的签名和输入示例记录错误 (#6230, @dbczumar)
[Tracking] 修复了在移除其 Artifacts 已被删除的 Runs 时，mlflow gc 中发生的失败 (#6165, @dbczumar)
[Tracking] 向 MLflow Skinny 客户端添加缺失的 sqlparse 库，该库是搜索支持所必需的 (#6174, @dbczumar)
[Tracking / Model Registry] 修复了 mlflow server 中一个拒绝空字符串参数和标签的错误 (#6179, @dbczumar)
[Model Registry] 修复了启用 --serve-arifacts 时无法下载模型版本 Schema 的失败 (#6355, @abbas123456)
[Scoring] 修补 Java 模型服务器，使其支持在最新版本的 Databricks Runtime 上记录的 MLflow 模型 (#6337, @dbczumar)
[Scoring] 验证在调用 mlflow deployments predict CLI 时是否指定了部署名称或 Endpoint (#6323, @dbczumar)
[Scoring] 使用 mlflow.pyfunc.spark_udf() 执行批量推理时，正确编码日期时间列 (#6244, @harupy)
[Projects] 修复了一个在使用 Projects 时本地目录路径被错误分类为 Git URI 的问题 (#6218, @ElefHead)
[R] 修复了 +/- 无限值的指标记录行为 (#6271, @nathaneastwood)
[Docs] 将 MlflowClient 的 Python API 文档从 mlflow.tracking 移动到 mlflow.client (#6405, @dbczumar)
[Docs] 文档说明 MLflow Pipelines 需要 Make (#6216, @dbczumar)
[Docs] 改进 CONTRIBUTING.rst 中有关开发和测试 MLflow JS 更改的文档 (#6330, @ahlag)

有关完整的更改列表，请参阅版本发布日志，并查看 mlflow.org 上的最新文档。