面向深度学习的 MLflow

深度学习彻底改变了人工智能，在计算机视觉、自然语言处理、生成式 AI 以及无数其他领域实现了突破性能力。随着模型变得越来越复杂，管理深度学习实验的复杂性也变得越来越具挑战性。

MLflow 提供了一个全面的解决方案，用于在所有主流框架中跟踪、管理和部署深度学习模型。无论您是微调 Transformer、训练计算机视觉模型，还是开发自定义神经网络，MLflow 强大的工具包都能简化您从实验到生产的整个工作流程。

为什么深度学习需要 MLflow

现代深度学习的挑战

🔄 迭代式开发：深度学习需要在架构、超参数和训练方案上进行大量实验。
📊 复杂的指标：模型在训练的各个步骤中会生成大量指标，必须对这些指标进行跟踪和比较。
💾 大型产物：模型、检查点和可视化内容需要系统化的存储和版本控制。
🧩 框架多样性：团队通常会跨 PyTorch、TensorFlow、Keras 和其他专业库工作。
🔬 可复现性危机：没有适当的跟踪，几乎不可能重现结果。
👥 团队协作：多名研究人员需要了解实验情况，并能够在彼此工作的基础上继续发展。
🚀 部署复杂性：从成功的实验转向生产会带来新的挑战。

MLflow 通过一个与框架无关的平台来应对这些挑战，为整个深度学习生命周期带来了结构性和清晰度。

深度学习的关键特性

📊 全面的实验跟踪

MLflow 的跟踪功能专为深度学习的迭代特性而设计。

一行代码自动记录 PyTorch、TensorFlow 和 Keras
基于步骤的指标 捕获跨周期和批次的训练动态
超参数跟踪 记录架构选择和训练配置
资源监控 跟踪 GPU 使用率、内存消耗和训练时间

高级跟踪功能

超越基本指标

MLflow 的跟踪系统支持深度学习工作流程的特殊需求。

模型架构记录：自动捕获神经网络结构和参数数量。
数据集跟踪：记录数据集版本、预处理步骤和增强参数。
可视化调试：存储样本预测、注意力图和其他可视化产物。
分布式训练：在分布式训练设置中监控多个节点的指标。
自定义产物：记录混淆矩阵、嵌入投影和其他专业可视化内容。
硬件性能分析：跟踪 GPU/TPU 使用率、内存消耗和吞吐量指标。
早停点：记录早停发生的时间并存储最佳模型状态。

一目了然地比较训练收敛情况

可视化多次深度学习运行，快速识别哪些配置在训练迭代中实现了卓越的性能。

Training convergence comparison

🏆 简化的模型管理

深度学习模型是需要谨慎管理的宝贵资产。

版本化模型注册中心 为您的所有模型提供一个中央存储库。
模型血缘 跟踪从数据到部署的完整历史记录。
元数据注释 存储架构细节、训练数据集和性能指标。
阶段转换 管理模型从开发、预发布到生产的各个阶段。
团队权限 控制谁可以查看、修改和部署模型。
依赖项管理 确保所有必需的软件包都与模型一起被跟踪。

面向团队的模型注册中心

协作式模型开发

MLflow 模型注册中心通过以下方式提高团队生产力：

转换请求：团队成员可以附带文档说明请求模型晋级。
审批工作流：为生产部署实施需要审批的治理流程（仅限托管版 MLflow）。
性能基线：在模型进入生产阶段前设置阈值要求。
回滚能力：如果出现问题，可快速恢复到以前的版本。
活动源：跟踪谁在何时对模型进行了更改（仅限托管版 MLflow）。
Webhook 集成：根据注册中心事件触发 CI/CD 管道和通知（仅限托管版 MLflow）。
模型文档：将全面的文档与模型产物一同存储。

🚀 简化的部署

轻松地从成功的实验过渡到生产。

一致的推理 API 跨所有深度学习框架
支持 GPU 的部署 适用于计算密集型模型
批处理和实时服务 选项，满足不同应用需求
Docker 容器化 实现可移植、隔离的环境
无服务器部署 在您的云提供商基础设施内实现可扩展、经济高效的服务
边缘部署 支持移动和物联网应用

高级部署选项

超越基础服务

MLflow 支持深度学习的复杂部署场景。

模型集成：部署多个模型，采用投票或平均机制。
自定义预处理/后处理：将数据转换管道附加到您的模型上。
优化推理：支持量化、剪枝和其他优化技术。
监控集成：连接到可观测性平台进行生产跟踪。
硬件加速：在云提供商基础设施中利用 GPU/TPU 资源进行高吞吐量推理。
可扩展架构：通过自动扩缩容能力处理可变负载（仅限托管版 MLflow）。
多框架部署：在同一服务环境中混合来自不同框架的模型。

框架集成

MLflow 为所有主流深度学习框架提供原生支持，让您可以使用自己偏好的工具，同时获得统一的实验跟踪和模型管理的好处。

通过一行代码自动记录，无缝跟踪 TensorFlow 实验。在中央存储库中捕获训练指标、模型架构和 TensorBoard 可视化。

将 MLflow 与 PyTorch 灵活的深度学习生态系统集成。记录自定义训练循环的指标，保存模型检查点，并简化生产部署。

利用 Keras 3.0 的多后端能力和全面的 MLflow 跟踪。通过一致的实验管理，监控在 TensorFlow、PyTorch 和 JAX 后端上的训练。

在 spaCy NLP 模型整个生命周期内进行跟踪和管理。记录训练指标，比较模型版本，并将语言处理管道部署到生产中。

开始使用

快速设置指南

1. 安装 MLflow

pip install mlflow

确保您已安装适当的深度学习集成包。例如，对于支持图像模型的 PyTorch：

pip install torch torchvision

2. 启动跟踪服务器（可选）

# Start a local tracking server
mlflow server --host 0.0.0.0 --port 5000

3. 启用自动记录

import mlflow

# For TensorFlow/Keras
mlflow.tensorflow.autolog()

# For PyTorch Lightning
mlflow.pytorch.autolog()

# For all supported frameworks
mlflow.autolog()

4. 正常训练您的模型

# Your existing training code works unchanged!
model.fit(train_data, train_labels, epochs=10, validation_data=(val_data, val_labels))

5. 查看结果

打开 MLflow UI 查看您跟踪的实验。

mlflow ui

或者如果使用跟踪服务器：

https://:5000

实际应用

使用 MLflow 的深度学习技术为各行各业的广泛应用提供动力。

🖼️ 计算机视觉：跟踪物体检测、图像分割和分类模型的性能。
🔊 语音识别：监控声学模型训练，并比较不同架构下的词错误率。
📝 自然语言处理：管理大型语言模型的微调，并评估其在下游任务中的性能。
🎮 强化学习：在多次训练运行中跟踪智能体性能、奖励和环境互动。
🧬 基因组学：组织用于分析基因序列和蛋白质结构的深度学习模型。
📊 金融预测：比较用于时间序列分析和风险评估的预测模型。
🏭 制造业：部署用于质量控制和预测性维护的计算机视觉模型。
🏥 医疗保健：通过严格的版本控制和审批工作流管理医学影像模型。

高级主题

分布式训练集成

MLflow 与分布式训练框架无缝集成。

Horovod：跟踪分布式 TensorFlow 和 PyTorch 训练中的指标。
PyTorch DDP：监控分布式数据并行训练。
TensorFlow 分布式策略：记录来自多 GPU 和多节点训练的指标。
Ray：与 Ray 的分布式计算生态系统集成。

使用 PyTorch DDP 的示例

import mlflow
import torch.distributed as dist
from torch.nn.parallel import DistributedDataParallel

mlflow.pytorch.autolog()

# Initialize process group
dist.init_process_group(backend="nccl")

# Create model and move to GPU with DDP wrapper
model = DistributedDataParallel(model.to(rank))

# MLflow tracking works normally with DDP
with mlflow.start_run():
    trainer.fit(model)

超参数优化

MLflow 与流行的超参数优化框架集成。

Optuna：跟踪试验并可视化优化结果。
Ray Tune：监控分布式超参数扫描。
Weights & Biases Sweeps：将 W&B 扫描与 MLflow 跟踪同步。
HyperOpt：组织和比较超参数搜索结果。

使用 Optuna 的示例

import mlflow
import optuna


def objective(trial):
    with mlflow.start_run(nested=True):
        # Suggest hyperparameters
        lr = trial.suggest_float("lr", 1e-5, 1e-1, log=True)
        batch_size = trial.suggest_categorical("batch_size", [16, 32, 64, 128])

        # Log parameters to MLflow
        mlflow.log_params({"lr": lr, "batch_size": batch_size})

        # Train model
        model = create_model(lr)
        result = train_model(model, batch_size)

        # Log results
        mlflow.log_metrics({"accuracy": result["accuracy"]})

        return result["accuracy"]


# Create study
with mlflow.start_run():
    study = optuna.create_study(direction="maximize")
    study.optimize(objective, n_trials=100)

    # Log best parameters
    mlflow.log_params({f"best_{k}": v for k, v in study.best_params.items()})
    mlflow.log_metric("best_accuracy", study.best_value)

迁移学习工作流

MLflow 帮助组织迁移学习和微调工作流。

基础模型注册中心：维护一个预训练模型的目录。
微调跟踪：在您将模型应用于新任务时监控性能。
层冻结分析：比较不同的层冻结策略。
学习率调度：跟踪不同学习率策略对微调的影响。

跟踪微调运行的示例

import mlflow
import torch
from transformers import AutoModelForSequenceClassification

with mlflow.start_run():
    # Log base model information
    base_model_name = "bert-base-uncased"
    mlflow.log_param("base_model", base_model_name)

    # Create and customize model for fine-tuning
    model = AutoModelForSequenceClassification.from_pretrained(base_model_name)

    # Log which layers are frozen
    frozen_layers = ["embeddings", "encoder.layer.0", "encoder.layer.1"]
    mlflow.log_param("frozen_layers", frozen_layers)

    # Freeze specified layers
    for name, param in model.named_parameters():
        if any(layer in name for layer in frozen_layers):
            param.requires_grad = False

    # Log trainable parameter count
    trainable_params = sum(p.numel() for p in model.parameters() if p.requires_grad)
    total_params = sum(p.numel() for p in model.parameters())
    mlflow.log_params(
        {
            "trainable_params": trainable_params,
            "total_params": total_params,
            "trainable_percentage": trainable_params / total_params,
        }
    )

    # Fine-tune and track results...

了解更多

在我们针对特定框架的指南中，深入了解 MLflow 在深度学习方面的能力。

TensorFlow 指南：掌握 MLflow 与 TensorFlow 和 Keras 的集成。
PyTorch 指南：学习如何跟踪自定义 PyTorch 训练循环。
Keras 指南：探索 Keras 3.0 与 MLflow 的多后端能力。
模型注册中心：管理模型版本和在不同开发阶段的转换。
MLflow 部署：将深度学习模型部署到生产环境。

面向深度学习的 MLflow

现代深度学习的挑战

深度学习的关键特性

📊 全面的实验跟踪

超越基本指标

一目了然地比较训练收敛情况

自定义可视化以获得更深入的洞见

分析参数关系

超参数的统计洞察

实时监控训练

模型比较

🏆 简化的模型管理

协作式模型开发

🚀 简化的部署

超越基础服务

框架集成

开始使用

1. 安装 MLflow

2. 启动跟踪服务器（可选）

3. 启用自动记录

4. 正常训练您的模型

5. 查看结果

实际应用

高级主题

了解更多

现代深度学习的挑战​

深度学习的关键特性​

📊 全面的实验跟踪​

超越基本指标​

一目了然地比较训练收敛情况​

自定义可视化以获得更深入的洞见​

分析参数关系​

超参数的统计洞察​

实时监控训练​

模型比较​

🏆 简化的模型管理​

协作式模型开发​

🚀 简化的部署​

超越基础服务​

框架集成​

开始使用​

1. 安装 MLflow​

2. 启动跟踪服务器（可选）​

3. 启用自动记录​

4. 正常训练您的模型​

5. 查看结果​

实际应用​

高级主题​

了解更多​

现代深度学习的挑战

深度学习的关键特性

📊 全面的实验跟踪

超越基本指标

一目了然地比较训练收敛情况

自定义可视化以获得更深入的洞见

分析参数关系

超参数的统计洞察

实时监控训练

模型比较

🏆 简化的模型管理

协作式模型开发

🚀 简化的部署

超越基础服务

框架集成

开始使用

1. 安装 MLflow

2. 启动跟踪服务器（可选）

3. 启用自动记录

4. 正常训练您的模型

5. 查看结果

实际应用

高级主题

了解更多