跳到主要内容

MLflow 3.8.0

·5分钟阅读
MLflow maintainers
MLflow 维护者

MLflow 3.8.0 包含多项主要功能和改进

主要功能

  • ⚙️提示模型配置:现在提示可以包含模型配置,允许您将特定的模型设置与提示模板关联,以实现更可复现的 LLM 工作流。(#18963、#19174、#19279,@chenmoneygithub)
  • 进行中的跟踪显示:跟踪 UI 现在支持显示进行中的跟踪的 span,并支持自动轮询,从而可以实时调试和监控长时间运行的 LLM 应用。(#19265,@B-Step62)
  • ⚖️DeepEval 和 RAGAS Judge 集成:新的 get_judge API 允许使用 DeepEval 和 RAGAS 评估指标作为 MLflow Scorer,提供对 20 多个评估指标的访问,包括答案相关性、忠实度和幻觉检测。(#18988,@smoorjani,#19345,@SomtochiUmeh)
  • 🛡️对话安全评分器:用于评估多轮对话安全性的新内置评分器,分析整个对话历史,以检测仇恨言论、骚扰、暴力和其他安全问题。(#19106,@joelrobin18)
  • 对话工具调用效率评分器:用于评估多轮代理交互中工具调用效率的新内置评分器,检测冗余调用、错失的批量处理机会和糟糕的工具选择。(#19245,@joelrobin18)

重要提示

  • UI 遥测数据收集。从 MLflow 3.8.0 开始,MLflow 将收集有关 UI 交互的匿名数据,类似于我们为 Python SDK 收集的遥测数据。如果您管理自己的服务器,通过设置现有的环境变量 MLFLOW_DISABLE_TELEMETRY=trueDO_NOT_TRACK=true,UI 遥测数据将自动禁用。如果您不管理自己的服务器(例如,您使用的是托管服务或不是管理员),您仍然可以通过 MLflow UI 中的新“设置”选项卡个人选择退出。有关更多信息,请阅读有关使用情况跟踪的文档。

功能:

  • [跟踪] 添加默认密码支持(#19360,@BenWilson2)
  • [跟踪] Pydantic AI Stream 支持(#19118,@joelrobin18)
  • [文档] 弃用 AI 网关中的 Unity Catalog 函数集成(#19457,@harupy)
  • [跟踪] 向 mlflow experiments search 添加 --max-results 选项(#19359,@alkispoly-db)
  • [跟踪] 增强加密安全性(#19253,@BenWilson2)
  • [跟踪] 修复并简化 Gateway 存储接口(#19346,@BenWilson2)
  • [评估] 为 LLM Judge 添加 inference_params 支持(#19152,@debu-sinha)
  • [跟踪] 支持将 span 批量导出到 UC 表(#19324,@B-Step62)
  • [跟踪] 添加端点标签(#19308,@BenWilson2)
  • [文档/评估] 添加 MLFLOW_GENAI_EVAL_MAX_SCORER_WORKERS 以限制并发 Scorer 执行(#19248,@debu-sinha)
  • [评估/跟踪] 在 Databricks 托管 MLflow 中启用 search_datasets(#19254,@alkispoly-db)
  • [提示] 在 markdown 中渲染文本提示预览(#19200,@ispoljari)
  • [UI] 为跟踪搜索选项卡添加链接提示过滤器(#19192,@TomeHirata)
  • [评估] 在传递给 predict_fn 时自动包装异步函数(#19249,@smoorjani)
  • [评估] [内置 Judge 3/6] 对话角色遵从性(#19247,@joelrobin18)
  • [跟踪] [端点] [1/x] 为端点添加后端数据库表(#19002,@BenWilson2)
  • [跟踪] [端点] [3/x] 实体基础定义(#19004,@BenWilson2)
  • [跟踪] [端点] [4/x] 抽象存储接口(#19005,@BenWilson2)
  • [跟踪] [端点] [5/x] 端点的 SQL 存储后端(#19006,@BenWilson2)
  • [跟踪] [端点] [6/x] Protobuf 和实体接口(#19007,@BenWilson2)
  • [跟踪] [端点] [7/x] 添加 REST 存储实现(#19008,@BenWilson2)
  • [跟踪] [端点] [8/x] 添加凭证缓存(#19014,@BenWilson2)
  • [跟踪] [端点] [9/x] 添加提供商、模型和配置处理(#19009,@BenWilson2)
  • [评估/UI] 添加评估运行图表视图的显示/隐藏可见性控件(#18797)(#18852,@pradpalnis)
  • [跟踪] 添加 mlflow experiments get 命令(#19097,@alkispoly-db)
  • [服务器基础架构] [网关 1/10] 使用映射类型简化密钥和屏蔽密钥(#19440,@BenWilson2)

Bug 修复:

  • [跟踪/UI] 分支 3.8 补丁:修复在跟踪比较中使用无效属性键的 GraphQL SearchRuns 过滤器(#19526,@WeichenXu123)
  • [评分/跟踪] 修复工件下载性能回归(#19520,@copilot-swe-agent)
  • [跟踪] 修复 _search_runs 中数据集过滤器的 SQLAlchemy 别名冲突(#19498,@fredericosantos)
  • [跟踪] 为 GraphQL 路由添加身份验证支持(#19278,@BenWilson2)
  • [] 修复 UC 函数执行中的 SQL 注入漏洞(#19381,@harupy)
  • [UI] 修复数据集模式表中 MultiIndex 列搜索崩溃(#19461,@copilot-swe-agent)
  • [跟踪] 使数据源故障能够优雅地失败(#19469,@BenWilson2)
  • [跟踪/跟踪] 修复 litellm 自动日志记录版本 >= 1.78(#19459,@harupy)
  • [模型注册表/跟踪] 修复模型注册表和作业存储中的 SQLAlchemy 引擎连接池泄漏(#19386,@harupy)
  • [UI] [Bug 修复] 跟踪 UI:支持过滤具有多个值的评估(例如,错误和布尔值)(#19262,@dbczumar)
  • [评估/跟踪] 修复 Feedback 中的错误初始化(#19340,@alkispoly-db)
  • [模型] 将容器构建切换为 SageMaker 的子进程(#19277,@BenWilson2)
  • [评分] 修复 Strands 跟踪上的评分器问题(#18835,@joelrobin18)
  • [跟踪] 在仅支持工件模式下停止初始化后端存储(#19167,@mprahl)
  • [评估] 并行化多轮会话评估(#19222,@AveshCSingh)
  • [跟踪] 为 pydantic_ai 添加安全的属性捕获(#19219,@BenWilson2)
  • [模型注册表] 修复 UC 到 UC 复制回归(#19280,@BenWilson2)
  • [跟踪] 修复工件路径遍历向量(#19260,@BenWilson2)
  • [UI] 修复系统指标上身份验证控件的问题(#19283,@BenWilson2)
  • [模型] 为 ChatModel 添加上下文加载(#19250,@BenWilson2)
  • [跟踪] 修复 LangGraph 异步调用者的跟踪装饰器用法(#19228,@BenWilson2)
  • [跟踪] 更新 docker compose 以使用 --artifacts-destination 而不是 --default-artifact-root(#19215,@B-Step62)
  • [构建] 通过合并 README 说明来减少 clint 错误消息的冗余度(#19155,@copilot-swe-agent)

文档更新:

  • [文档] 为正确性评分器添加特定参考(#19472,@BenWilson2)
  • [文档] 添加流畅性评分器的文档(#19481,@alkispoly-db)
  • [文档] 更新 eval 快速入门,将所有代码放入一个脚本(#19444,@achen530)
  • [文档] 添加知识保留评分器的文档(#19478,@alkispoly-db)
  • [评估] 修复深度学习 .mdx 中不可复现的代码示例(#19376,@saumilyagupta)
  • [文档/评估] 修复:mlflow.genai.evaluate() 的文档令人困惑(#19380,@brandonhawi)
  • [文档] 弃用 OpenAI flavor 的模型日志记录(#19325,@TomeHirata)
  • [文档] 为文档中的视频元素添加圆角(#19231,@copilot-swe-agent)
  • [文档] 同步跟踪快速入门文档中的 Python/TypeScript 标签选择(#19184,@copilot-swe-agent)

有关更改的完整列表,请参阅发布更改日志,并查看 mlflow.org 上的最新文档。

MLflow 3.7.0

·阅读时长 6 分钟
MLflow maintainers
MLflow 维护者

MLflow 3.7.0 包含多项 GenAI 可观测性、评估和提示管理的主要功能和改进。

主要功能

  • 📝 实验提示 UI:实验 UI 中的新提示功能允许您直接在实验中管理和搜索提示,并支持过滤器字符串和跟踪中的提示版本搜索。(#19156#18919#18906,@TomeHirata)
  • 💬 多轮评估支持:增强的 mlflow.genai.evaluate 现在支持多轮对话,能够全面评估对话式 AI 应用,支持 DataFrame 和列表输入。(#18971,@AveshCSingh)
  • ⚖️ 跟踪比较:跟踪 UI 中的新并排比较视图允许您分析和调试不同运行中的 LLM 应用行为,从而更容易识别回归和改进。(#17138,@joelrobin18)
  • 🌐 Gemini TypeScript SDK:Google Gemini 的 TypeScript 自动跟踪支持,扩展了 MLflow 对 JavaScript/TypeScript AI 应用的可观测性能力。(#18207,@joelrobin18)
  • 🎯 Judge 中的结构化输出make_judge API 现在支持结构化输出,能够实现更精确、可编程消费的评估结果。(#18529,@TomeHirata)
  • 🔗 VoltAgent 跟踪:为 VoltAgent 添加了自动跟踪支持,将 MLflow 的可观测性扩展到此 AI Agent 框架。(#19041,@joelrobin18)

重大更改

  • [跟踪] SQLite 现在是 MLflow 跟踪服务器的默认后端。(#18497,@harupy)
  • [模型] 移除已弃用的 diviner flavor(#18808,@copilot-swe-agent)
  • [模型] 移除已弃用的 promptflow flavor(#18805,@copilot-swe-agent)

功能

  • [跟踪] 为 SQLite 数据库文件创建父目录(#19205,@harupy)
  • [提示] 在加载/注册提示时链接提示和实验(#18883,@TomeHirata)
  • [跟踪] 为 SGC 运行恢复包含环境变量回退(#19143,@artjen)
  • [跟踪] 添加从 Databricks 作业恢复 SGC 运行的支持(#19015,@artjen)
  • [评估] 向 mlflow scorers list 命令添加 --builtin/-b 标志(#19095,@alkispoly-db)
  • [跟踪] Pydantic AI Chat UI 支持(#18777,@joelrobin18)
  • [跟踪] 添加 scorers 的身份验证支持(#18699,@BenWilson2)
  • [评估] 从 scorers 中移除实验性标志(#18122,@BenWilson2)
  • [评估] 向所有内置 scorers 添加 description 字段(#18547,@alkispoly-db)

Bug 修复

  • [跟踪] 处理带有第三方通用根 span 的跟踪(#19217,@B-Step62)
  • [跟踪] 修复 OTLP 端点的路径处理,符合 OpenTelemetry 规范(#19154,@harupy)
  • [跟踪] 向 OTLP traces endpoint 添加 gzip/deflate Content-Encoding 支持(#19024,@Miaoxiang-philips)
  • [跟踪] 添加缺少的 _delete_trace_tag_v3 API(#18813,@Tian-Sky-Lan)
  • [跟踪] 修复聊天会话视图中的错误,即 UI 启动后创建的新会话由于错误的时间戳过滤而不可见(#18928,@dbczumar)
  • [跟踪] 修复空列表/字典的 OTLP proto 转换(#18958,@B-Step62)
  • [跟踪] Agno V2 修复(#18345,@joelrobin18)
  • [跟踪] 修复 /v1/traces 端点以返回 protobuf 而不是 JSON(#18929,@copilot-swe-agent)
  • [跟踪] 在 MCP extra 中固定 click!=8.3.0 以修复 MCP 服务器故障(#18748,@copilot-swe-agent)
  • [跟踪] 为外部用户修复 MCP 服务器 uv 安装命令(#18745,@copilot-swe-agent)
  • [评估] 通过使用 agentic judge adapter 修复基于跟踪的 scorer 评估(#19123,@alkispoly-db)
  • [评估] 修复托管 scorer 注册失败(#19146,@xsh310)
  • [评估] 修复 InstructionsJudge 使用 scorer 描述作为评估值(#19121,@alkispoly-db)
  • [评估] 向正确性 judge 期望字段添加验证(#19026,@smoorjani)
  • [评估] 修复模型 URI 下划线处理(#18849,@RohanRouth)
  • [评估] 修复 evaluate_traces MCP 工具错误:使用 result_df 而不是 tables#18825,@alkispoly-db)
  • [评估] 通过添加必需的 anthropic_version 字段修复 Bedrock Anthropic 适配器(#17744,@harupy)
  • [评估] 修复预先存在的身份验证表的迁移(#18793,@BenWilson2)
  • [跟踪] 修复跟踪 URI 传播(#18023,@shaperilio)
  • [跟踪] 修复 SqlLoggedModelMetricexperiment_id 的关联(#18382,@mcompen)
  • [跟踪] 向 Flask 路由添加身份验证验证器(#18486,@BenWilson2)
  • [跟踪] 添加用于数据集的实验关联处理的缺少的 proto 处理程序(#18769,@BenWilson2)
  • [UI] 在评估数据集 UI 中显示完整数据集记录内容并添加搜索栏(#19000,@dbczumar)
  • [UI] 从相对 API 路径请求 TraceInfo 和 Trace Assessments(#19032,@kbolashev)
  • [UI] 定义 LoggedModelOutput.to_dictionary(),以便 LoggedModelOutput 和包含它们的运行可以进行 JSON 序列化(#19017,@nicklamiller)
  • [UI] 修复 TracesUI 页面的路由问题(#19044,@joelrobin18)
  • [构建] 修复 mlflow gc 以移除模型工件(#17282,@joelrobin18)
  • [构建] 修复 MCP 服务器中 Click 8.3.0 的 Sentinel.UNSET 处理(#18858,@harupy)
  • [构建] 添加 Amazon S3 的存储桶所有权检查(#18542,@kingroryg)
  • [文档] 修复自定义跟踪快速入门示例中的 Python 缩进(#19185,@copilot-swe-agent)
  • [文档] 修复 API 文档中属性块水平渲染的问题(#19125,@copilot-swe-agent)
  • [文档] 修复文档侧边栏中 CLI 链接缺少 api_reference 前缀(#18893,@copilot-swe-agent)
  • [文档] 修复 notebook 下载 URL 以使用版本化路径(#18806,@harupy)
  • [文档] 修复已删除入门页面的文档重定向(#18789,@copilot-swe-agent)
  • [模型] 修复共享集群 Py4j 有状态问题(#19139,@BenWilson2)
  • [模型] 防止本地工件存储中的符号链接路径遍历(#18964,@BenWilson2)

文档更新

  • [文档] 添加 LangGraph 优化指南(#19180,@TomeHirata)
  • [文档] 添加关于多轮评估支持里程碑 1 的文档(#19033,@smoorjani)
  • [文档] 更新 transformers 和 sentence transformers 文档(#18925,@BenWilson2)
  • [文档] 清理经典评估文档(#19013,@BenWilson2)
  • [文档] 改进 prompt_template 的文档(#19105,@ingo-stallknecht)
  • [文档] 修复 ML 文档主页中的拼写错误(#19048,@copilot-swe-agent)
  • [文档] 将文档 GIF 动画转换为 MP4 视频(#18946,@harupy)
  • [文档] 通过调整侧边栏布局和样式提高可读性(#18937,@kevin-lyn)
  • [文档] 清理 scikit-learn 文档(#18794,@BenWilson2)
  • [文档] 清理 XGBoost 文档(#18790,@BenWilson2)
  • [文档] 清理 TensorFlow 文档(#18850,@BenWilson2)
  • [文档] 在 OTel collector YAML 中使用正确的 OTLP HTTP exporter(#18930,@Miaoxiang-philips)
  • [文档] 清理 SpaCy 和 Keras 文档(#18895,@BenWilson2)
  • [文档] 修复跟踪文档页面中的内容(#18750,@B-Step62)
  • [文档] 改进文件存储弃用警告消息(#18900,@harupy)
  • [文档] 清理 MLflow 3 文档内容(#18871,@BenWilson2)
  • [文档] 使用 make_judge API 添加多轮 Judge 创建和直接 Judge 调用(#18897,@xsh310)
  • [文档] 清理 PyTorch 文档(#18816,@BenWilson2)
  • [文档] 清理 Prophet 文档(#18814,@BenWilson2)
  • [文档] 清理 SparkML 文档(#18811,@BenWilson2)
  • [文档] 清理传统 ML 着陆页(#18799,@BenWilson2)
  • [文档] 清理深度学习着陆页(#18820,@BenWilson2)
  • [文档] 清理评估数据集文档(#18766,@BenWilson2)
  • [文档] 修复 OpenTelemetry 文档(#18810,@joelrobin18)
  • [文档] 阐明 mlflow gc 命令对于固定运行和注册模型行为(#18704,@copilot-swe-agent)

有关更改的完整列表,请参阅发布更改日志,并查看 mlflow.org 上的最新文档。

MLflow 3.6.0

·2 分钟阅读
MLflow maintainers
MLflow 维护者

MLflow 3.6.0 包含多项 AI 可观测性、实验 UI、Agent 评估和部署的主要功能和改进。

#1:MLflow 跟踪服务器中的完整 OpenTelemetry 支持

OpenTelemetry Trace Example

MLflow 现在提供全面的 OpenTelemetry 集成,允许您在可观测性堆栈中无缝地协同使用 OpenTelemetry 和 MLflow。

  • 将 OpenTelemetry spans 摄取到 MLflow 跟踪服务器中
  • 监控已使用 OpenTelemetry 检测的应用
  • 选择任意语言为您的 AI 应用,并对其进行追踪,包括 Java、Go、Rust 等。
  • 创建统一的追踪,将 MLflow SDK 追踪与第三方库的 OpenTelemetry 自动追踪相结合

更多信息,请查看 博文 以获取更多详细信息。

#2: Trace UI 中的会话级视图

Session-level View in Trace UI

新的聊天会话选项卡提供了专用视图,用于在会话级别组织和分析相关追踪,从而更轻松地跟踪对话工作流。

有关更多详细信息,请参阅 用户与会话追踪 指南。

#3: TypeScript Tracing SDK 中新增支持的框架

Vercel AI SDKLangChain.jsMastraAnthropic SDKGemini SDK 提供 TypeScript 自动追踪支持,扩展了 MLflow 在流行 JavaScript/TypeScript 框架中的可观测性能力。

更多信息,请查看 TypeScript Tracing SDK

#4: 追踪 Judge 成本和追踪

全面追踪 LLM Judge 评估成本和追踪,通过自动成本计算和渲染,提供对评估费用和性能的可见性。

更多详情,请参阅 LLM 评估指南

#5: 新的实验选项卡栏

实验选项卡栏已完全重新设计,以提供更直观、更易于发现的 MLflow 不同功能导航。

升级到 MLflow 3.6.0 即可体验!

#6: 用于 Lightning Agent 部署的 Agent Server

import agent
from mlflow.genai.agent_server import AgentServer

agent_server = AgentServer("ResponsesAgent")
app = agent_server.app

def main():
agent_server.run(app_import_string="start_server:app")

if __name__ == "__main__":
main()
python3 start_server.py

curl -X POST https://:8000/invocations \
-H "Content-Type: application/json" \
-d '{
"input": [{ "role": "user", "content": "What is the 14th Fibonacci number?"}],
"stream": true
}'

用于管理和部署评分代理的新代理服务器基础设施,具有增强的编排能力。

有关更多详细信息,请参阅 Agent Server 指南

重大更改和弃用

  • 从 span 名称中删除编号后缀(_1_2 等)(#18531
  • 弃用 promptflow、pmdarima 和 diviner flavor(#18597#18577

有关更改的完整列表,请参阅 发布更改日志,并查看 mlflow.org 上的最新文档。

MLflow 3.5.1

·2 分钟阅读
MLflow maintainers
MLflow 维护者

MLflow 3.5.1 是一个补丁版本,包含多项错误修复和改进。

功能

  • [CLI] 添加 CLI 命令以按实验列出注册的评分器(#18255@alkispoly-db
  • [Deployments] 添加配置选项以支持长时间运行的部署客户端请求(#18363@BenWilson2
  • [Deployments] 创建 set_databricks_monitoring_sql_warehouse_id API(#18346@dbrx-euirim
  • [Prompts] 在 prompt 注册表中显示 prompt 优化说明(#18375@TomeHirata

错误修复

文档更新

有关更改的完整列表,请参阅 发布更改日志,并查看 mlflow.org 上的最新文档。

MLflow 3.5.0

·5分钟阅读
MLflow maintainers
MLflow 维护者

MLflow 3.5.1 包含多项重大功能和改进!

主要功能

  • ⚙️ Job Execution Backend: 引入了新的作业执行后端基础设施,用于使用单独的执行池、作业搜索功能和瞬态错误处理来运行异步任务。(#17676#18012#18070#18071#18112#18049@WeichenXu123
  • 🎯 Flexible Prompt Optimization API: 引入了一个新的灵活 API 用于 prompt 优化,支持模型切换和 GEPA 算法,从而能够更高效地进行 prompt 调优,减少回滚次数。请参阅 文档 开始使用。(#18183#18031@TomeHirata
  • 🎨 Enhanced UI Onboarding: 通过追踪快速入门抽屉和更新的主页指南,改进了产品内入门体验,以帮助用户发现 MLflow 的最新功能。(#18098#18187@B-Step62
  • 🔐 Security Middleware for Tracking Server: 添加了安全中间件层,以防止 DNS 重绑定、CORS 攻击和其他安全威胁。请阅读 文档 以获取配置详细信息。(#17910@BenWilson2

功能

Bug 修复

  • [Tracing] 修复 LangChain 的父运行解析机制(#17273@B-Step62
  • [Tracing] 为 get_trace 添加客户端重试策略以提高可靠性(#18224@B-Step62
  • [Tracing] 修复 OpenTelemetry 双重导出(#18163@B-Step62
  • [Tracing] 抑制 span 日志记录中的虚假警告(#18092#18276@B-Step62
  • [Tracing] 修复 OpenTelemetry 资源属性未正确传播的问题(#18019@xiaosha007
  • [Tracing] 修复 DSPy prompt 显示(#17988@B-Step62
  • [Tracing] 修复 usage aggregation 以避免祖先重复(#17921@TomeHirata
  • [Tracing] 修复 Strands 追踪中的重复计数(#17855@joelrobin18
  • [Tracing] 修复 to_predict_fn 以处理不带 tags 字段的 traces(#17784@harupy
  • [Tracing] 在 delete_trace_tag 中对追踪标签键进行 URL 编码,以防止 404 错误(#18232@copilot-swe-agent
  • [Tracking] 修复 Claude Code 自动日志输入未显示的问题(#17858@smoorjani
  • [Tracking] 修复值为 0 的度量指标的 runs 在实验列表等值线图中不显示的问题(#17916@WeichenXu123
  • [Tracking] 修复 DSPy 运行显示(#18137@B-Step62
  • [Tracking] 允许 OpenAI autolog 的工具 JSON Schema 中使用类型列表(#17908@fedem96
  • [Tracking] 为作业运行器设置追踪 URI 环境变量(#18073@WeichenXu123
  • [Evaluation] 为 job_start API 添加原子性(#18226@BenWilson2
  • [Evaluation] 修复 merge_records() API 中 trace ingest 的输出(#18047@BenWilson2
  • [Evaluation] 修复 judge 回归(#18039@B-Step62
  • [Evaluation] 修复 judges 使用非空用户消息以兼容 Anthropic 模型(#17935@dbczumar
  • [Evaluation] 修复 judge 中的 endpoints 错误(#18048@joelrobin18
  • [Model Registry] 修复从非 Databricks 追踪创建模型版本到 Databricks Unity Catalog 注册表(#18244@austinwarner-8451
  • [Model Registry] 修复用于 artifact 下载的注册表 URI 实例化(#17982@arpitjasa-db
  • [Model Registry] 在 Unity Catalog 模型复制失败消息中包含原始错误详细信息(#17997@harupy
  • [Model Registry] 修复 FileStore 实例的 webhook 传递以提前退出(#18015@copilot-swe-agent
  • [Prompts] 修复在 allow_missing 设置时 prompt 别名解析期间的错误抑制(#17541@mr-brobot
  • [UI] 通用的 UI 改进(#18281@joelrobin18
  • [Models] 修复数据集问题(#18081@joelrobin18
  • [Models] 将数据集名称和摘要转发给 PolarsDataset 的 to_evaluation_dataset 方法(#17886@sadelcarpio
  • [Build] 修复 mlflow server 在缺少可选的 huey 包时立即退出的问题(#18016@harupy
  • [Scoring] 修复聊天补全参数(#18248@aravind-segu

文档更新

有关更改的完整列表,请参阅 发布更改日志,并查看 mlflow.org 上的最新文档。

MLflow 3.4.0

·4 分钟阅读
MLflow maintainers
MLflow 维护者

MLflow 3.4.0 包含多项重大功能和改进

主要新特性

  • 📊 OpenTelemetry 指标导出:MLflow 现在将 span 级统计信息导出为 OpenTelemetry 指标,为被跟踪的应用程序提供增强的可观测性和监控功能。(#17325@dbczumar
  • 🤖 MCP 服务器集成:推出 MLflow 的模型上下文协议 (MCP) 服务器,使 AI 助手和 LLM 能够以编程方式与 MLflow 进行交互。(#17122@harupy
  • 🧑‍⚖️ 自定义评判器 API:新的 make_judge API 使能够创建自定义评估评判器,用于根据特定领域标准评估 LLM 输出。(#17647@BenWilson2@dbczumar@alkispoly-db@smoorjani
  • 📈 相关性后端:实现用于存储和计算实验指标之间相关性的后端基础设施,使用 NPMI(归一化点互信息)。(#17309#17368@BenWilson2
  • 🗂️ 评估数据集:MLflow 现在支持将评估数据集直接存储和版本化在实验中,以进行可复现的模型评估。(#17447@BenWilson2
  • 🔗 MLflow 服务器的 Databricks 后端:MLflow 服务器现在可以使用 Databricks 作为后端,实现与 Databricks 工作区的无缝集成。(#17411@nsthorat
  • 🤖 Claude 自动日志记录:为 Claude AI 交互提供自动跟踪支持,捕获对话和模型响应。(#17305@smoorjani
  • 🌊 Strands Agent 跟踪:为 Strands Agent 添加了全面的跟踪支持,包括对 Agent 工作流程和交互的自动检测。(#17151@joelrobin18
  • 🧪 UI 中的实验类型: MLflow 现在引入了实验类型,有助于减少经典 ML/DL 和 GenAI 功能之间的混乱。MLflow 会自动检测类型,但您可以通过实验名称旁边的选择器轻松调整。(#17605@daniellok-db

功能

  • [评估] 允许在 mlflow.genai.evaluate 中通过 DataFrame 传递标签。(#17549@smoorjani
  • [评估] 为 Safety 和 RetrievalRelevance 内置评分器添加自定义评判器模型支持。(#17526@dbrx-euirim
  • [跟踪] 将 AI 命令添加为 MCP 提示,用于 LLM 交互。(#17608@nsthorat
  • [跟踪] 添加 MLFLOW_ENABLE_OTLP_EXPORTER 环境变量。(#17505@dbczumar
  • [跟踪] 支持 OTel 和 MLflow 双重导出。(#17187@dbczumar
  • [跟踪] 使用 ContextVar 使 set_destination 线程安全。(#17219@B-Step62
  • [CLI] 为 MLflow 命令 CLI 添加功能,将提示命令公开给 LLM。(#17530@nsthorat
  • [CLI] 添加 'mlflow runs link-traces' 命令。(#17444@nsthorat
  • [CLI] 添加 'mlflow runs create' 命令以进行程序化运行创建。(#17417@nsthorat
  • [CLI] 添加具有全面搜索和管理功能的 MLflow traces CLI 命令。(#17302@nsthorat
  • [CLI] 向所有 MLflow CLI 命令添加 --env-file 标志。(#17509@nsthorat
  • [跟踪] 用于在 MLflow 实验中存储评分器的后端。(#17090@WeichenXu123
  • [模型注册表] 允许在 WMR 和 UC 之间跨工作区复制模型版本。(#17458@arpitjasa-db
  • [模型] 为 GenAI 应用程序添加基于 Git 的自动模型版本控制。(#17076@harupy
  • [模型] 提高 WheeledModel._download_wheels 的安全性。(#17004@serena-ruan
  • [项目] 支持 Optuna 超参数优化的 resume run。(#17191@lu-wang-dl
  • [评分] 添加 MLFLOW_DEPLOYMENT_CLIENT_HTTP_REQUEST_TIMEOUT 环境变量。(#17252@dbczumar
  • [UI] 添加在 Chart 视图中隐藏/取消隐藏所有已完成运行的功能。(#17143@joelrobin18
  • [遥测] 为 invoke_custom_judge_model 添加 MLflow OSS 遥测。(#17585@dbrx-euirim

错误修复

  • [评估] 为默认 Databricks 模型服务实现 DSPy LM 接口。(#17672@smoorjani
  • [评估] 修复了聚合错误地应用于旧版评分器接口的问题。(#17596@BenWilson2
  • [评估] 为 mlflow.evaluate 添加 Unity Catalog 表源支持。(#17546@BenWilson2
  • [评估] 修复自定义提示评判器与自定义评判器模型的编码问题。(#17584@dbrx-euirim
  • [跟踪] 修复 OpenAI 自动日志记录,以从流式事件正确重构 Response 对象。(#17535@WeichenXu123
  • [跟踪] 在 TypeScript SDK 中添加基本身份验证支持。(#17436@kevin-lyn
  • [跟踪] 将评分器端点更新为 v3.0 API 规范。(#17409@WeichenXu123
  • [跟踪] 修复 MLflow 跟踪后端中的评分器状态处理。(#17379@WeichenXu123
  • [跟踪] 修复 UI 中缺失的源运行信息。(#16682@WeichenXu123
  • [评分] 修复 spark_udf 以始终使用 stdin_serve 进行模型服务。(#17580@WeichenXu123
  • [评分] 修复 Spark UDF 使用 uv 作为环境管理器时的一个错误。(#17489@WeichenXu123
  • [模型注册表] 在模型版本迁移期间从 run_link 提取源工作区 ID。(#17600@arpitjasa-db
  • [模型] 通过减少临时目录创建中的写入权限来提高安全性。(#17544@BenWilson2
  • [Server-infra] 修复 --env-file 标志与 --dev 模式的兼容性。(#17615@nsthorat
  • [Server-infra] 修复 Uvicorn 服务器的基本身份验证。(#17523@kevin-lyn
  • [UI] 修复 UI 中的实验比较功能。(#17550@Flametaa
  • [UI] 修复 compareExperimentsSearch 路由定义。(#17459@WeichenXu123

文档更新

有关更改的完整列表,请参阅 发布更改日志,并查看 mlflow.org 上的最新文档。

MLflow 3.4.0rc0

·4 分钟阅读
MLflow maintainers
MLflow 维护者

MLflow 3.4.0rc0 是 3.4.0 的候选版本。要安装,请运行以下命令

pip install mlflow==3.4.0rc0

MLflow 3.4.0rc0 包含多项重大功能和改进

主要新特性

  • 📊 OpenTelemetry 指标导出:MLflow 现在将 span 级统计信息导出为 OpenTelemetry 指标,为被跟踪的应用程序提供增强的可观测性和监控功能。(#17325@dbczumar
  • 🤖 MCP 服务器集成:推出 MLflow 的模型上下文协议 (MCP) 服务器,使 AI 助手和 LLM 能够以编程方式与 MLflow 进行交互。(#17122@harupy
  • 🧑‍⚖️ 自定义评判器 API:新的 make_judge API 使能够创建自定义评估评判器,用于根据特定领域标准评估 LLM 输出。(#17647@BenWilson2@dbczumar@alkispoly-db@smoorjani
  • 📈 相关性后端:实现用于存储和计算实验指标之间相关性的后端基础设施,使用 NPMI(归一化点互信息)。(#17309#17368@BenWilson2
  • 🗂️ 评估数据集:MLflow 现在支持将评估数据集直接存储和版本化在实验中,以进行可复现的模型评估。(#17447@BenWilson2
  • 🔗 MLflow 服务器的 Databricks 后端:MLflow 服务器现在可以使用 Databricks 作为后端,实现与 Databricks 工作区的无缝集成。(#17411@nsthorat
  • 🤖 Claude 自动日志记录:为 Claude AI 交互提供自动跟踪支持,捕获对话和模型响应。(#17305@smoorjani
  • 🌊 Strands Agent 跟踪:为 Strands Agent 添加了全面的跟踪支持,包括对 Agent 工作流程和交互的自动检测。(#17151@joelrobin18

功能

  • [评估] 允许在 mlflow.genai.evaluate 中通过 DataFrame 传递标签。(#17549@smoorjani
  • [评估] 为 Safety 和 RetrievalRelevance 内置评分器添加自定义评判器模型支持。(#17526@dbrx-euirim
  • [跟踪] 将 AI 命令添加为 MCP 提示,用于 LLM 交互。(#17608@nsthorat
  • [跟踪] 添加 MLFLOW_ENABLE_OTLP_EXPORTER 环境变量。(#17505@dbczumar
  • [跟踪] 支持 OTel 和 MLflow 双重导出。(#17187@dbczumar
  • [跟踪] 使用 ContextVar 使 set_destination 线程安全。(#17219@B-Step62
  • [CLI] 为 MLflow 命令 CLI 添加功能,将提示命令公开给 LLM。(#17530@nsthorat
  • [CLI] 添加 'mlflow runs link-traces' 命令。(#17444@nsthorat
  • [CLI] 添加 'mlflow runs create' 命令以进行程序化运行创建。(#17417@nsthorat
  • [CLI] 添加具有全面搜索和管理功能的 MLflow traces CLI 命令。(#17302@nsthorat
  • [CLI] 向所有 MLflow CLI 命令添加 --env-file 标志。(#17509@nsthorat
  • [跟踪] 用于在 MLflow 实验中存储评分器的后端。(#17090@WeichenXu123
  • [模型注册表] 允许在 WMR 和 UC 之间跨工作区复制模型版本。(#17458@arpitjasa-db
  • [模型] 为 GenAI 应用程序添加基于 Git 的自动模型版本控制。(#17076@harupy
  • [模型] 提高 WheeledModel._download_wheels 的安全性。(#17004@serena-ruan
  • [项目] 支持 Optuna 超参数优化的 resume run。(#17191@lu-wang-dl
  • [评分] 添加 MLFLOW_DEPLOYMENT_CLIENT_HTTP_REQUEST_TIMEOUT 环境变量。(#17252@dbczumar
  • [UI] 添加在 Chart 视图中隐藏/取消隐藏所有已完成运行的功能。(#17143@joelrobin18
  • [遥测] 为 invoke_custom_judge_model 添加 MLflow OSS 遥测。(#17585@dbrx-euirim

错误修复

  • [评估] 为默认 Databricks 模型服务实现 DSPy LM 接口。(#17672@smoorjani
  • [评估] 修复了聚合错误地应用于旧版评分器接口的问题。(#17596@BenWilson2
  • [评估] 为 mlflow.evaluate 添加 Unity Catalog 表源支持。(#17546@BenWilson2
  • [评估] 修复自定义提示评判器与自定义评判器模型的编码问题。(#17584@dbrx-euirim
  • [跟踪] 修复 OpenAI 自动日志记录,以从流式事件正确重构 Response 对象。(#17535@WeichenXu123
  • [跟踪] 在 TypeScript SDK 中添加基本身份验证支持。(#17436@kevin-lyn
  • [跟踪] 将评分器端点更新为 v3.0 API 规范。(#17409@WeichenXu123
  • [跟踪] 修复 MLflow 跟踪后端中的评分器状态处理。(#17379@WeichenXu123
  • [跟踪] 修复 UI 中缺失的源运行信息。(#16682@WeichenXu123
  • [评分] 修复 spark_udf 以始终使用 stdin_serve 进行模型服务。(#17580@WeichenXu123
  • [评分] 修复 Spark UDF 使用 uv 作为环境管理器时的一个错误。(#17489@WeichenXu123
  • [模型注册表] 在模型版本迁移期间从 run_link 提取源工作区 ID。(#17600@arpitjasa-db
  • [模型] 通过减少临时目录创建中的写入权限来提高安全性。(#17544@BenWilson2
  • [Server-infra] 修复 --env-file 标志与 --dev 模式的兼容性。(#17615@nsthorat
  • [Server-infra] 修复 Uvicorn 服务器的基本身份验证。(#17523@kevin-lyn
  • [UI] 修复 UI 中的实验比较功能。(#17550@Flametaa
  • [UI] 修复 compareExperimentsSearch 路由定义。(#17459@WeichenXu123

文档更新

请进行试用,并在问题跟踪器上报告任何问题。

MLflow 3.3.2

·阅读一分钟
MLflow maintainers
MLflow 维护者

MLflow 3.3.2 是一个补丁版本,包含多项小改进和 bug 修复

功能

错误修复

文档更新

有关更改的完整列表,请参阅 发布更改日志,并查看 mlflow.org 上的最新文档。

MLflow 3.3.1

·阅读一分钟
MLflow maintainers
MLflow 维护者

MLflow 3.3.1 包含多项重大功能和改进

错误修复

小型错误修复和文档更新

#17295@gunsodo#17272@bbqiu

有关更改的完整列表,请参阅 发布更改日志,并查看 mlflow.org 上的最新文档。

MLflow 3.3.0

·2 分钟阅读
MLflow maintainers
MLflow 维护者

MLflow 3.3.0 包含多项重大功能和改进

Eval UI

主要新功能:

  • 🪝 Model Registry Webhooks: MLflow 现在支持模型注册表事件的 webhooks,从而能够实现自动化通知和与外部系统的集成。(#16583@harupy
  • 🧭 Agno Tracing Integration: 添加了 Agno 追踪集成,以增强 AI 代理工作流的可观测性。(#16995@joelrobin18
  • 🧪 GenAI Evaluation in OSS: MLflow 开源了 LLM 应用的新评估功能。该套件能够系统地衡量和改进 LLM 应用的质量,并与 MLflow 的可观测性、反馈收集和实验追踪能力紧密集成。(#17161#17159@B-Step62
  • 🖥️ Revamped Trace Table View: MLflow UI 中的新追踪视图提供了一个简化的界面,用于探索、过滤和监控追踪,并增强了搜索功能,包括跨请求的全文搜索。(#17092@daniellok-db
  • ⚡️ FastAPI + Uvicorn Server: MLflow Tracking Server 现在默认使用 FastAPI + Uvicorn 以提高性能,同时保持 Flask 兼容性。(#17038@dbczumar

新功能

  • [Tracking] 添加 Docker Compose 文件以快速启动本地 MLflow 服务器,并提供推荐的最低配置(#17065@joelrobin18
  • [Tracing] 为 agentic 工作流添加 memory span 类型(#17034@B-Step62
  • [Prompts] 在 optimize_prompt 中启用自定义 prompt 优化器,包括 DSPy 支持(#17052@TomeHirata
  • [Model Registry / Prompts] 正式支持 @latest 别名(#17146@B-Step62
  • [Metrics] 允许在 token_count 函数中使用自定义分词器编码(#16253@joelrobin18

错误修复

  • [Tracking] 修复 Databricks 秘密范围检查以减少审计日志错误(#17166@harupy
  • [Tracking] 修复 Databricks SDK 在重试逻辑中的错误代码映射(#17095@harupy
  • [Tracking] 修复 Databricks 秘密范围检查以减少错误率(#17166@harupy
  • [Tracing] 从 CrewAI 追踪中删除 API 密钥,以防止凭证泄露(#17082@diy2learn
  • [Tracing] 通过同步回调修复 LiteLLM span 关联问题(#16982@B-Step62
  • [Tracing] 修复 OpenAI Agents tracing (#17227, @B-Step62)
  • [Evaluation] 修复 get_label_schema 没有属性的问题 (#17163, @smoorjani)
  • [Docs] 通过添加缺失的 CSS 类和 versions.json 生成,修复 API Reference 页面的版本选择器 (#17247, @copilot-swe-agent)

文档更新

有关更改的完整列表,请参阅 发布变更日志,并在 mlflow.org 上查看最新文档。