MLflow 1.28.0
·4 分钟阅读
我们很高兴地宣布 MLflow 1.28.0 现已可用!
MLflow 1.28.0 包含多项重大新功能和改进。
功能
- [Pipelines] 在 Pipeline 执行期间将完整的 Pipeline 运行时配置记录到 MLflow Tracking (#6359,@jinzhang21)
- [Pipelines] 添加
pipeline.yaml配置以指定用于模型注册的模型注册表后端 (#6284,@sunishsheth2009) - [Pipelines] 支持可选地跳过 scikit-learn 回归管道的
transform步骤 (#6362,@sunishsheth2009) - [Pipelines] 在 Databricks 上的 Pipeline 步骤卡中添加指向 Run 和 Model 的 UI 链接 (#6294,@dbczumar)
- [Tracking] 引入
mlflow.search_experiments()API,用于按名称和标签搜索实验 (#6333,@WeichenXu123;#6227,#6172,#6154,@harupy) - [Tracking] 将 File 和 SQL 后端支持的最大参数值长度增加到 500 个字符 (#6358,@johnyNJ)
- [Tracking] 在
mlflow gc中引入--older-than标志,用于根据删除时间删除运行 (#6354,@Jason-CKY) - [Tracking] 添加
MLFLOW_SQLALCHEMYSTORE_POOL_RECYCLE环境变量,用于回收 SQLAlchemy 连接 (#6344,@postrational) - [UI] 在 Experiment 页面上的 Runs Table 中显示深度嵌套的运行 (#6065,@tospe)
- [UI] 在 Compare Runs 页面中为指标添加箱线图可视化 (#6308,@ahlag)
- [UI] 在 Compare Runs 页面中显示标签 (#6164,@CaioCavalcanti)
- [UI] 在对数刻度下查看指标图时,为坐标轴使用科学计数法 (#6176,@RajezMariner)
- [UI] 在 Metrics 页面中添加按钮,用于将指标下载为 CSV (#6048,@rafaelvp-db)
- [UI] 在 Metrics 页面的图表中包含 NaN 和 +/- 无穷大值 (#6422,@hubertzub-db)
- [Tracking / Model Registry] 引入环境变量来控制 REST API 请求的重试行为和超时 (#5745,@peterdhansen)
- [Tracking / Model Registry] 使
MlflowClient可以作为mlflow.MlflowClient导入 (#6085,@subramaniam02) - [Model Registry] 添加了通过标签搜索已注册模型和模型版本的功能 (#6413,#6411,#6320,@WeichenXu123)
- [Model Registry] 向
set_model_version_tag()添加了stage参数 (#6185,@subramaniam02) - [Model Registry] 向
mlflow server添加了--registry-store-uri标志,用于指定模型注册表后端 URI (#6142,@Secbone) - [Models] 提高了在 Databricks 上记录 Spark Model 的性能 (#6282,@bbarnes52)
- [Models] 在推断的模型模式中包含 Pandas Series 名称 (#6361,@RynoXLI)
- [Scoring] 使
mlflow models build-docker中的model_uri可选,以支持构建通用的模型服务镜像 (#6302,@harupy) - [R] 支持记录 NA 和 NaN 参数值 (#6263,@nathaneastwood)
错误修复和文档更新
- [Pipelines] 通过将数据集剖析限制在最初的 100 列来提高 scikit-learn 回归管道的延迟 (#6297,@sunishsheth2009)
- [Pipelines] 在 Linux 系统上使用
xdg-open而不是open来查看 Pipeline 结果 (#6326,@strangiato) - [Pipelines] 修复了在 Jupyter Notebook 中跳过 Step Card 渲染的错误 (#6378,@apurva-koti)
- [Tracking] 在授权失败的 REST API 响应中使用 401 HTTP 响应代码,而不是 500 (#6106,@balvisio)
- [Tracking] 在使用 Azure Blob Storage 时,正确地将工件分类为文件和目录 (#6237,@nerdinand)
- [Tracking] 修复了 File 后端在写入失败时导致运行元数据丢失的错误 (#6388,@dbczumar)
- [Tracking] 调整
mlflow.pyspark.ml.autolog(),使其仅记录受支持的输入/输出数据类型的模型签名 (#6365,@harupy) - [Tracking] 调整
mlflow.tensorflow.autolog(),以便在指定log_models=False时记录 TensorFlow 提前停止回调信息 (#6170,@WeichenXu123) - [Tracking] 修复了包含 transformer 的模型的
mlflow.sklearn.autolog()中签名和输入示例记录错误 (#6230,@dbczumar) - [Tracking] 修复了
mlflow gc在删除先前已删除工件的运行中发生的故障 (#6165,@dbczumar) - [Tracking] 将
sqlparse库添加到 MLflow Skinny 客户端,该库对于搜索支持是必需的 (#6174,@dbczumar) - [Tracking / Model Registry] 修复了
mlflow server中拒绝空字符串值参数和标签的错误 (#6179,@dbczumar) - [Model Registry] 修复了在启用
--serve-arifacts时阻止下载模型版本模式的故障 (#6355,@abbas123456) - [Scoring] 修补 Java Model Server,以支持记录在较新版本的 Databricks Runtime 上的 MLflow Models (#6337,@dbczumar)
- [Scoring] 在调用
mlflow deployments predictCLI 时,验证是否指定了部署名称或端点 (#6323,@dbczumar) - [Scoring] 在使用
mlflow.pyfunc.spark_udf()执行批量推理时,正确编码 datetime 列 (#6244,@harupy) - [Projects] 修复了在运行 Projects 时将本地目录路径错误地归类为 Git URI 的问题 (#6218,@ElefHead)
- [R] 修复了 +/- 无穷大值的指标记录行为 (#6271,@nathaneastwood)
- [Docs] 将
MlflowClient的 Python API 文档从mlflow.tracking移至mlflow.client(#6405,@dbczumar) - [Docs] 记录 MLflow Pipelines 需要 Make (#6216,@dbczumar)
- [Docs] 在
CONTRIBUTING.rst中改进了开发和测试 MLflow JS 更改的文档 (#6330,@ahlag)
有关更改的全面列表,请参阅 发布更改日志,并查看 mlflow.org 上的最新文档。
