使用免费的托管 MLflow 简化您的 MLflow 项目
如果您是 MLflow 的新手,并希望开始使用完全托管且完全免费的 MLflow 部署,本博客将向您展示如何在几分钟内开始使用 MLflow。
简化您的 ML 项目:免费开始使用托管 MLflow
使用 Databricks Community Edition (CE) 探索大数据和机器学习的世界,这是一个免费、有限制1 版本的 Databricks 平台。此版本非常适合初学者和 Databricks 及 MLflow 的新手,它通过提供托管环境来简化学习曲线。它消除了手动设置跟踪服务器的复杂性。Databricks CE 包括托管 MLflow,可实现 MLflow 实验的有效管理和可视化。这使其成为在用户友好的界面中开发机器学习项目的首选,允许您从您最喜欢的 IDE、notebook 环境甚至从 Databricks CE 的 notebook 中进行连接。
在 MLflow 中使用 Databricks CE 的好处
MLflow 是一个与任何平台兼容的开源框架,但与其他平台相比,在 Databricks (包括 Community Edition, CE) 上使用时,它具有明显的优势。这些优势包括
-
经济高效:Databricks CE 上的 MLflow 是免费的,非常适合教育目的和小型项目。
-
设置简单:从任何位置访问完全托管的跟踪服务器和用户界面。要连接到 Databricks CE,只需执行
mlflow.login()
。 -
易于共享:在 Databricks 生态系统中,共享您的 notebook 非常简单方便。
-
无缝集成:Databricks CE 允许直接存储和可视化 MLflow 实验、运行和模型。
-
可扩展性:Databricks CE 上的 MLflow 提供了一条扩展项目的简单途径。它还可以与 Databricks 平台上提供的各种数据工具无缝集成。
场景
在本博客中,我们将逐步介绍如何在您的本地设备上运行 ML 实验,并在 托管在 Databricks CE 上的 MLflow 跟踪服务器上跟踪它们
为了让您了解可用于运行 MLflow 的选项,下图显示了常见设置配置的可能情况。
在本博客中,我们将展示 #3,即使用远程(完全托管)跟踪服务器。
分步指南
1. 创建 Databricks CE 帐户
如果您还没有帐户,可以注册一个免费帐户。该过程很快,通常不超过 3 分钟。
填写注册表单并选择“开始使用 Community Edition”。
注册后,您将获得有关如何设置密码的信息,您可以使用该密码登录 CE2。
2. 安装依赖项
在开始之前,请确保您已安装必要的软件包。在您的设备上,从您最喜欢的 IDE 或 notebook 中运行以下命令
%pip install -q mlflow databricks-sdk
3. 设置 Databricks CE 身份验证
Databricks Community Edition (CE) 的主要优势在于其便利性:它提供了一个 MLflow 跟踪服务器,而无需本地基础设施设置。创建您的 CE 帐户后,您可以通过 mlflow.login() 函数轻松访问此服务器,从而简化了 MLflow 实验跟踪的过程。
要使用 Databricks CE 进行身份验证,请使用 mlflow.login() 函数。这将提示您输入
-
Databricks 主机:
https://community.cloud.databricks.com/
-
用户名:您的 Databricks CE 电子邮件地址。
-
密码:您的 Databricks CE 密码。
成功进行身份验证后,您将看到一条确认消息。
import mlflow
mlflow.login()
# Follow the prompts for authentication
4. 连接到托管 MLflow 并使用 Databricks CE 跟踪实验
从本地计算机登录后,使用 mlflow.set_experiment() 启动实验并记录一些指标。例如
mlflow.set_experiment("/Users/\<email>/check-databricks-ce-connection")
with mlflow.start_run():
mlflow.log_metric("foo", 1)
mlflow.log_metric("bar", 2)
注意:Databricks 环境要求您使用目录(从根目录开始)设置实验
/Users/{您的帐户电子邮件地址}/{您的实验名称}
,这与自托管 MLflow(以及在本地运行 MLFlow 时)的行为不同。
5. 在 Databricks CE 中查看您的实验
现在让我们导航到 Databricks CE 以查看实验结果。登录到您的 Databricks CE 帐户,然后单击左上角以在下拉列表中选择机器学习。最后,单击实验图标。请参见下面的屏幕截图
导航到机器学习部分
导航到 MLflow UI
在“实验”视图中,您应该能够找到实验 /Users/{您的电子邮件}/check-databricks-ce-connection
,类似于
单击运行名称,在此示例中为“youthful-lamb-287”(请注意,您将在 CE 控制台中看到一个不同的随机生成的名称),这将您带到类似于以下内容的运行视图
在运行视图中,您将看到我们的虚拟指标 “foo”
和 “bar”
已成功记录。
6. 在 Databricks CE 中运行任何 MLflow 教程
如果您想尝试 MLflow 网站上的教程,可以使用 Databricks CE 快速测试(并在您愿意的情况下修改)教程。例如,如果您想测试创建自定义 Pyfunc 教程
- 单击“Workspace”并选择“导入 notebook”
-
使用
URL
选项直接从 MLflow 文档网站导入 notebook。对于此示例,要导入,请将 url 的最后一个元素从html
替换为ipynb
。这可以通过托管在 MLflow 网站上的任何教程或指南 notebook 完成。.../notebooks/basic-pyfunc.
html→ .../notebooks/basic-pyfunc.ipynb3
结论
Databricks Community Edition (CE) 为 MLflow 实验跟踪提供了一个可访问且协作的平台,它具有多个优势。它的设置过程毫不费力且快速,提供了用户友好的体验。此外,它是免费使用的,使其成为初学者、学习者和小型项目的理想选择。
入门
在 Databricks 上试用 notebook
进一步阅读
-
了解更多关于设置跟踪服务器的不同方法
-
了解更多关于使用 Databricks CE 运行 Tutorial Notebooks
脚注
-
Model Registry 和 Model Deployment 功能在 Databricks Community Edition 中不可用。↩
-
Databricks CE 仅支持基本授权登录(用户名/密码)。对于更高级和安全的授权设置,只有完整的 Databricks 产品支持这些设置。↩
-
或者,您可以下载 notebook 并通过选择
File
而不是URL
在 UI 中手动加载它。↩