MLflow 平台

MLflow 3.4.0

2025年9月17日 ·4 分钟阅读

MLflow 维护者

MLflow 3.4.0 包含多项主要功能和改进。

主要新特性

📊 OpenTelemetry 指标导出：MLflow 现在将 span 级统计信息导出为 OpenTelemetry 指标，为被追踪的应用提供增强的可观测性和监控能力。（#17325，@dbczumar）
🤖 MCP 服务器集成：引入 MLflow 的模型上下文协议 (MCP) 服务器，使 AI 助手和 LLM 能够以编程方式与 MLflow 进行交互。（#17122，@harupy）
🧑‍⚖️ 自定义评估器 API：新的 make_judge API 能够创建自定义评估器，以特定领域的标准来评估 LLM 输出。（#17647，@BenWilson2，@dbczumar，@alkispoly-db，@smoorjani）
📈 相关性后端：实现了使用 NPMI（归一化点互信息）存储和计算实验指标之间相关性的后端基础设施。（#17309，#17368，@BenWilson2）
🗂️ 评估数据集：MLflow 现在支持直接在实验中存储和版本化评估数据集，以便进行可复现的模型评估。（#17447，@BenWilson2）
🔗 MLflow 服务器的 Databricks 后端：MLflow 服务器现在可以使用 Databricks 作为后端，从而实现与 Databricks 工作区的无缝集成。（#17411，@nsthorat）
🤖 Claude 自动日志记录：对 Claude AI 交互的自动追踪支持，捕获对话和模型响应。（#17305，@smoorjani）
🌊 Strands Agent 追踪：增加了对 Strands Agent 的全面追踪支持，包括对 Agent 工作流和交互的自动仪器化。（#17151，@joelrobin18）
🧪 UI 中的实验类型：MLflow 现在引入了实验类型，有助于减少经典 ML/DL 和 GenAI 功能之间的混乱。MLflow 会自动检测类型，但您可以轻松地通过实验名称旁边的选择器进行调整。（#17605，@daniellok-db）

功能

[评估] 在 mlflow.genai.evaluate 中添加通过 DataFrame 传递标签的能力。（#17549，@smoorjani）
[评估] 为 Safety 和 RetrievalRelevance 内置评分器添加自定义评估模型支持。（#17526，@dbrx-euirim）
[追踪] 将 AI 命令添加为 MCP 提示，用于 LLM 交互。（#17608，@nsthorat）
[追踪] 添加 MLFLOW_ENABLE_OTLP_EXPORTER 环境变量。（#17505，@dbczumar）
[追踪] 支持 OTel 和 MLflow 双重导出。（#17187，@dbczumar）
[追踪] 使用 ContextVar 实现 set_destination 以实现线程安全。（#17219，@B-Step62）
[CLI] 为 MLflow 命令 CLI 添加通过 prompt 命令暴露给 LLM 的功能。（#17530，@nsthorat）
[CLI] 添加 'mlflow runs link-traces' 命令。（#17444，@nsthorat）
[CLI] 添加 'mlflow runs create' 命令，用于以编程方式创建 run。（#17417，@nsthorat）
[CLI] 添加 MLflow traces CLI 命令，提供全面的搜索和管理功能。（#17302，@nsthorat）
[CLI] 向所有 MLflow CLI 命令添加 --env-file 标志。（#17509，@nsthorat）
[Tracking] 为在 MLflow 实验中存储评分器提供后端。（#17090，@WeichenXu123）
[Model Registry] 允许在 WMR 和 UC 之间进行跨工作区复制模型版本。（#17458，@arpitjasa-db）
[Models] 为 GenAI 应用添加基于 Git 的自动模型版本控制。（#17076，@harupy）
[Models] 改进 WheeledModel._download_wheels 的安全性。（#17004，@serena-ruan）
[Projects] 支持 Optuna 超参数优化的 run 恢复。（#17191，@lu-wang-dl）
[Scoring] 添加 MLFLOW_DEPLOYMENT_CLIENT_HTTP_REQUEST_TIMEOUT 环境变量。（#17252，@dbczumar）
[UI] 添加在图表视图中隐藏/取消隐藏所有已完成 run 的功能。（#17143，@joelrobin18）
[Telemetry] 为 invoke_custom_judge_model 添加 MLflow OSS 遥测。（#17585，@dbrx-euirim）

错误修复

[Evaluation] 为默认 Databricks 模型服务实现 DSPy LM 接口。（#17672，@smoorjani）
[Evaluation] 修复了错误地将聚合应用于旧评分器接口的问题。（#17596，@BenWilson2）
[Evaluation] 为 mlflow.evaluate 添加 Unity Catalog 表源支持。（#17546，@BenWilson2）
[Evaluation] 修复自定义提示评估器与自定义评估模型相关的编码问题。（#17584，@dbrx-euirim）
[Tracking] 修复 OpenAI 自动日志记录，以便从流式事件正确重建 Response 对象。（#17535，@WeichenXu123）
[Tracking] 在 TypeScript SDK 中添加基本身份验证支持。（#17436，@kevin-lyn）
[Tracking] 将评分器端点更新至 v3.0 API 规范。（#17409，@WeichenXu123）
[Tracking] 修复 MLflow Tracking 后端中的评分器状态处理。（#17379，@WeichenXu123）
[Tracking] 修复 UI 中缺失的 source-run 信息。（#16682，@WeichenXu123）
[Scoring] 修复 spark_udf 以始终使用 stdin_serve 进行模型服务。（#17580，@WeichenXu123）
[Scoring] 修复 Spark UDF 使用 uv 作为环境管理器的一个 bug。（#17489，@WeichenXu123）
[Model Registry] 在模型版本迁移期间从 run_link 中提取源工作区 ID。（#17600，@arpitjasa-db）
[Models] 通过减少临时目录创建中的写入权限来提高安全性。（#17544，@BenWilson2）
[Server-infra] 修复 --env-file 标志与 --dev 模式的兼容性。（#17615，@nsthorat）
[Server-infra] 修复 Uvicorn 服务器的基本身份验证。（#17523，@kevin-lyn）
[UI] 修复 UI 中的实验比较功能。（#17550，@Flametaa）
[UI] 修复 compareExperimentsSearch 路由定义。（#17459，@WeichenXu123）

文档更新

[Docs] 为评分器文档添加关于追踪要求的说明。（#17542，@BenWilson2）
[Docs] 添加 Claude 代码自动追踪的文档。（#17521，@smoorjani）
[Docs] 移除 MPU/MPD 功能的实验状态消息。（#17486，@BenWilson2）
[Docs] 从文档中移除存在问题的页面。（#17453，@BenWilson2）
[Docs] 添加关于更新 Databricks 注册模型签名文档。（#17450，@arpitjasa-db）
[Docs] 更新评分器 API 文档。（#17298，@WeichenXu123）
[Docs] 添加评分器全面文档。（#17258，@B-Step62）

如需查看更改的完整列表，请参阅发布日志，并查看 mlflow.org 上的最新文档。

生成式 AI

模型训练

MLflow 3.4.0

主要新特性

生成式 AI

模型训练

主要新特性​

主要新特性