MLflow 2.2.0

2023 年 3 月 1 日 ·阅读时长 4 分钟

MLflow 维护者

我们很高兴地宣布 MLflow 2.2.0 可用！

MLflow 2.2.0 包含多项主要功能和改进

功能特性

[Recipes] 在分类 Recipe 中添加分数校准支持 (#7744, @sunishsheth2009)
[Recipes] 在分类 Recipe 中添加自动标签编码 (#7711, @sunishsheth2009)
[Recipes] 支持在分类和回归 Recipe 中使用自定义数据分割逻辑 (#7815, #7588, @sunishsheth2009)
[Recipes] 为分类和回归 Recipe 引入可自定义的 MLflow Run 名称前缀 (#7746, @kamalesh0406; #7763, @sunishsheth2009)
[UI] 在 MLflow Experiment Page 添加新的图表视图以深入了解模型性能 (#7864, @hubertzub-db, @apurva-koti, @prithvikannan, @ridhimag11, @sunishseth2009, @dbczumar)
[UI] 现代化并改进用于模型调优的平行坐标图 (#7864, @hubertzub-db, @apurva-koti, @prithvikannan, @ridhimag11, @sunishseth2009, @dbczumar)
[UI] 在 MLflow Experiment Page 搜索栏中添加预输入建议 (#7864, @hubertzub-db, @apurva-koti, @prithvikannan, @ridhimag11, @sunishseth2009, @dbczumar)
[UI] 提高 Experiments Sidebar 在实验数量很多时的性能 (#7804, @jmahlik)
[Tracking] 引入对原生 PyTorch 模型的自动日志记录支持 (#7627, @temporaer)
[Tracking] 自动日志记录 XGBoost 模型时允许指定 model_format (#7781, @guyrosin)
[Tracking] 添加 MLFLOW_ARTIFACT_UPLOAD_DOWNLOAD_TIMEOUT 环境变量以配置 Artifact 操作超时 (#7783, @wamartin-aml)
[Artifacts] 从 mlflow server 下载的 Artifact 包含 Content-Type 响应头 (#7827, @bali0019)
[Model Registry] 为 Java 客户端引入 searchModelVersions() API (#7880, @gabrielfu)
[Model Registry] 为 MlflowClient.search_model_versions() 引入 max_results、order_by 和 page_token 参数 (#7623, @serena-ruan)
[Models] 支持使用外部数据记录大型 ONNX 模型 (#7808, @dogeplusplus)
[Models] 添加对记录在 Spark 中拟合的 Diviner 模型的支持 (#7800, @BenWilson2)
[Models] 引入 MLFLOW_DEFAULT_PREDICTION_DEVICE 环境变量以设置 pyfunc 模型推理设备 (#7922, @ankit-db)
[Scoring] 在 github.com/mlflow/mlflow/pkgs 发布 MLflow Model scoring server 的官方 Docker 镜像 (#7759, @dbczumar)

错误修复

[Recipes] 修复 ingest 步骤中自定义数据集源的数据集格式验证问题 (#7638, @sunishsheth2009)
[Recipes] 修复训练期间识别表现最差示例的错误 (#7658, @sunishsheth2009)
[Recipes] 确保调用 `inspect()` 时 recipe 图始终一致呈现 (#7852, @sunishsheth2009)
[Recipes] 在 transform 步骤中正确遵循 `positive_class` 配置 (#7626, @sunishsheth2009)
[Recipes] 使记录的指标名称与 `mlflow.evaluate()` 保持一致 (#7613, @sunishsheth2009)
[Recipes] 将 `run_id` 和 `artifact_path` 键添加到记录的 MLmodel 文件中 (#7651, @sunishsheth2009)
[UI] 修复 UI 中实验名称、模型名称和标签键验证的错误 (#7818, @subramaniam02)
[Tracking] 创建实验时将 Artifact 位置解析为绝对路径 (#7670, @bali0019)
[Tracking] 从 Spark 数据源自动日志记录中排除 Delta checkpoint (#7902, @harupy)
[Tracking] 当指标不存在时，GetMetricHistory 一致地返回空列表 (#7589, @bali0019; #7659, @harupy)
[Artifacts] 修复对 UNC 格式的 Windows 路径上的 Artifact 操作的支持 (#7750, @bali0019)
[Artifacts] 修复 HDFS Artifact 列表中的错误 (#7581, @pwnywiz)
[Model Registry] 在 `mlflow server` 中不允许创建具有本地文件系统源的模型版本 (#7908, @harupy)
[Model Registry] 修复 FileStore 中已删除模型版本的处理问题 (#7716, @harupy)
[Model Registry] 正确地独立于 MLflow Tracking 初始化 Model Registry SQL 表 (#7704, @harupy)
[Models] 使用 pyfunc 进行推理时，正确地将 PyTorch 模型输出从 GPU 移动到 CPU (#7885, @ankit-db)
[Build] 修复与使用 `PYTHONOPTIMIZE=2` 编译的 Python 安装的兼容性问题 (#7791, @dbczumar)
[Build] 修复与即将发布的 pandas 2.0 版本的兼容性问题 (#7899, @harupy; #7910, @dbczumar)

文档更新

[Docs] 添加使用 MLflow 保存和加载 Spark MLlib 模型的示例 (#7706, @dipanjank)
[Docs] 添加 `mlflow.lightgbm` API 的使用示例 (#7565, @canerturkseven)
[Docs] 添加使用 `sktime` 创建自定义模型风格的示例 (#7624, @benjaminbluhm)
[Docs] 澄清 `mlflow.evaluate()` 中 `precision_recall_auc` 指标的计算方法 (#7701, @BenWilson2)
[Docs] 移除过时的示例链接 (#7587, @asloan7)

有关完整的更改列表，请参阅发布变更日志，并在 mlflow.org 查看最新文档。