跳到主要内容

MLflow 1.28.0

·4 分钟阅读
MLflow maintainers
MLflow 维护者

我们很高兴地宣布 MLflow 1.28.0 现已可用!

MLflow 1.28.0 包含多项重大新功能和改进。

功能

  • [Pipelines] 在 Pipeline 执行期间将完整的 Pipeline 运行时配置记录到 MLflow Tracking (#6359@jinzhang21)
  • [Pipelines] 添加 pipeline.yaml 配置以指定用于模型注册的模型注册表后端 (#6284@sunishsheth2009)
  • [Pipelines] 支持可选地跳过 scikit-learn 回归管道的 transform 步骤 (#6362@sunishsheth2009)
  • [Pipelines] 在 Databricks 上的 Pipeline 步骤卡中添加指向 Run 和 Model 的 UI 链接 (#6294@dbczumar)
  • [Tracking] 引入 mlflow.search_experiments() API,用于按名称和标签搜索实验 (#6333@WeichenXu123#6227#6172#6154@harupy)
  • [Tracking] 将 File 和 SQL 后端支持的最大参数值长度增加到 500 个字符 (#6358@johnyNJ)
  • [Tracking] 在 mlflow gc 中引入 --older-than 标志,用于根据删除时间删除运行 (#6354@Jason-CKY)
  • [Tracking] 添加 MLFLOW_SQLALCHEMYSTORE_POOL_RECYCLE 环境变量,用于回收 SQLAlchemy 连接 (#6344@postrational)
  • [UI] 在 Experiment 页面上的 Runs Table 中显示深度嵌套的运行 (#6065@tospe)
  • [UI] 在 Compare Runs 页面中为指标添加箱线图可视化 (#6308@ahlag)
  • [UI] 在 Compare Runs 页面中显示标签 (#6164@CaioCavalcanti)
  • [UI] 在对数刻度下查看指标图时,为坐标轴使用科学计数法 (#6176@RajezMariner)
  • [UI] 在 Metrics 页面中添加按钮,用于将指标下载为 CSV (#6048@rafaelvp-db)
  • [UI] 在 Metrics 页面的图表中包含 NaN 和 +/- 无穷大值 (#6422@hubertzub-db)
  • [Tracking / Model Registry] 引入环境变量来控制 REST API 请求的重试行为和超时 (#5745@peterdhansen)
  • [Tracking / Model Registry] 使 MlflowClient 可以作为 mlflow.MlflowClient 导入 (#6085@subramaniam02)
  • [Model Registry] 添加了通过标签搜索已注册模型和模型版本的功能 (#6413#6411#6320@WeichenXu123)
  • [Model Registry] 向 set_model_version_tag() 添加了 stage 参数 (#6185@subramaniam02)
  • [Model Registry] 向 mlflow server 添加了 --registry-store-uri 标志,用于指定模型注册表后端 URI (#6142@Secbone)
  • [Models] 提高了在 Databricks 上记录 Spark Model 的性能 (#6282@bbarnes52)
  • [Models] 在推断的模型模式中包含 Pandas Series 名称 (#6361@RynoXLI)
  • [Scoring] 使 mlflow models build-docker 中的 model_uri 可选,以支持构建通用的模型服务镜像 (#6302@harupy)
  • [R] 支持记录 NA 和 NaN 参数值 (#6263@nathaneastwood)

错误修复和文档更新

  • [Pipelines] 通过将数据集剖析限制在最初的 100 列来提高 scikit-learn 回归管道的延迟 (#6297@sunishsheth2009)
  • [Pipelines] 在 Linux 系统上使用 xdg-open 而不是 open 来查看 Pipeline 结果 (#6326@strangiato)
  • [Pipelines] 修复了在 Jupyter Notebook 中跳过 Step Card 渲染的错误 (#6378@apurva-koti)
  • [Tracking] 在授权失败的 REST API 响应中使用 401 HTTP 响应代码,而不是 500 (#6106@balvisio)
  • [Tracking] 在使用 Azure Blob Storage 时,正确地将工件分类为文件和目录 (#6237@nerdinand)
  • [Tracking] 修复了 File 后端在写入失败时导致运行元数据丢失的错误 (#6388@dbczumar)
  • [Tracking] 调整 mlflow.pyspark.ml.autolog(),使其仅记录受支持的输入/输出数据类型的模型签名 (#6365@harupy)
  • [Tracking] 调整 mlflow.tensorflow.autolog(),以便在指定 log_models=False 时记录 TensorFlow 提前停止回调信息 (#6170@WeichenXu123)
  • [Tracking] 修复了包含 transformer 的模型的 mlflow.sklearn.autolog() 中签名和输入示例记录错误 (#6230@dbczumar)
  • [Tracking] 修复了 mlflow gc 在删除先前已删除工件的运行中发生的故障 (#6165@dbczumar)
  • [Tracking] 将 sqlparse 库添加到 MLflow Skinny 客户端,该库对于搜索支持是必需的 (#6174@dbczumar)
  • [Tracking / Model Registry] 修复了 mlflow server 中拒绝空字符串值参数和标签的错误 (#6179@dbczumar)
  • [Model Registry] 修复了在启用 --serve-arifacts 时阻止下载模型版本模式的故障 (#6355@abbas123456)
  • [Scoring] 修补 Java Model Server,以支持记录在较新版本的 Databricks Runtime 上的 MLflow Models (#6337@dbczumar)
  • [Scoring] 在调用 mlflow deployments predict CLI 时,验证是否指定了部署名称或端点 (#6323@dbczumar)
  • [Scoring] 在使用 mlflow.pyfunc.spark_udf() 执行批量推理时,正确编码 datetime 列 (#6244@harupy)
  • [Projects] 修复了在运行 Projects 时将本地目录路径错误地归类为 Git URI 的问题 (#6218@ElefHead)
  • [R] 修复了 +/- 无穷大值的指标记录行为 (#6271@nathaneastwood)
  • [Docs] 将 MlflowClient 的 Python API 文档从 mlflow.tracking 移至 mlflow.client (#6405@dbczumar)
  • [Docs] 记录 MLflow Pipelines 需要 Make (#6216@dbczumar)
  • [Docs] 在 CONTRIBUTING.rst 中改进了开发和测试 MLflow JS 更改的文档 (#6330@ahlag)

有关更改的全面列表,请参阅 发布更改日志,并查看 mlflow.org 上的最新文档。