将您的开发环境连接到 MLflow
本指南向您展示如何将开发环境连接到 MLflow 实验。 您可以在本地计算机上运行 MLflow,自行托管开源 MLflow 服务,或使用托管产品,例如 Databricks Managed MLflow。
MLflow 实验是 GenAI 应用程序的容器。 在数据模型部分中了解有关实验及其包含内容的更多信息。
先决条件
- OSS MLflow
- Databricks
- Python 环境:已安装 pip 的 Python 3.8+
- 本地或远程服务器: 运行 MLflow 跟踪服务器的访问权限
- Databricks 工作区: 访问 Databricks 工作区
本指南介绍了如何使用 Databricks 个人访问令牌。 MLflow 也适用于其他Databricks 支持的身份验证方法。
设置说明
- OSS MLflow
- Databricks - 本地 IDE
- Databricks - Notebook
步骤 1:安装 MLflow
安装 MLflow 以进行本地开发
pip install --upgrade "mlflow>=3.1"
步骤 2:启动 MLflow 跟踪服务器
选项 A:本地跟踪(默认)
如果未指定跟踪 URI,MLflow 将自动使用本地文件存储
import mlflow
# Creates local mlruns directory for experiments
mlflow.set_experiment("my-genai-experiment")
选项 B:远程跟踪服务器
启动远程 MLflow 跟踪服务器
# Start MLflow server (in a separate terminal)
mlflow server --host 0.0.0.0 --port 5000
然后配置您的客户端以使用远程服务器
import mlflow
# Connect to remote MLflow server
mlflow.set_tracking_uri("https://:5000")
mlflow.set_experiment("my-genai-experiment")
选项 C:数据库后端
对于生产用途,请使用数据库后端配置 MLflow
# Example with PostgreSQL
mlflow server \
--backend-store-uri postgresql://user:password@localhost:5432/mlflow \
--default-artifact-root s3://my-mlflow-bucket/artifacts \
--host 0.0.0.0 \
--port 5000
步骤 3:配置环境(可选)
为了在您的团队中实现一致的配置,请使用环境变量
# .env file
MLFLOW_TRACKING_URI=https://:5000
MLFLOW_EXPERIMENT_NAME=my-genai-experiment
加载到您的 Python 代码中
import os
from dotenv import load_dotenv
import mlflow
load_dotenv()
# Set tracking URI and experiment
mlflow.set_tracking_uri(os.getenv("MLFLOW_TRACKING_URI", "file:./mlruns"))
mlflow.set_experiment(os.getenv("MLFLOW_EXPERIMENT_NAME", "default"))
步骤 4:验证您的连接
创建一个测试文件并运行此代码
import mlflow
# Print connection information
print(f"MLflow Tracking URI: {mlflow.get_tracking_uri()}")
print(f"Active Experiment: {mlflow.get_experiment_by_name('my-genai-experiment')}")
# Test logging
with mlflow.start_run():
mlflow.log_param("test_param", "test_value")
print("✓ Successfully connected to MLflow!")
步骤 5:访问 MLflow UI
打开浏览器以查看 MLflow UI
- 本地跟踪:
https://:5000
(如果运行 mlflow 服务器) - 基于文件的跟踪:在您的项目目录中运行
mlflow ui
,然后转到https://:5000
步骤 1:安装 MLflow
安装带有 Databricks 连接的 MLflow
pip install --upgrade "mlflow[databricks]>=3.1"
步骤 2:创建一个 MLflow 实验
- 打开您的 Databricks 工作区
- 转到左侧边栏中机器学习下的实验
- 在“实验”页面的顶部,单击新建 GenAI 实验
步骤 3:配置身份验证
选择以下身份验证方法之一
选项 A:环境变量
- 在您的 MLflow 实验中,单击生成 API 密钥
- 复制生成的代码并在您的终端中运行
export DATABRICKS_TOKEN=<databricks-personal-access-token>
export DATABRICKS_HOST=https://<workspace-name>.cloud.databricks.com
export MLFLOW_TRACKING_URI=databricks
export MLFLOW_EXPERIMENT_ID=<experiment-id>
选项 B:.env 文件
- 在您的 MLflow 实验中,单击生成 API 密钥
- 将生成的代码复制到项目根目录中的
.env
文件
DATABRICKS_TOKEN=<databricks-personal-access-token>
DATABRICKS_HOST=https://<workspace-name>.cloud.databricks.com
MLFLOW_TRACKING_URI=databricks
MLFLOW_EXPERIMENT_ID=<experiment-id>
- 安装
python-dotenv
包
pip install python-dotenv
- 在您的代码中加载环境变量
# At the beginning of your Python script
from dotenv import load_dotenv
# Load environment variables from .env file
load_dotenv()
步骤 4:验证您的连接
创建一个测试文件并运行此代码以验证您的连接
import mlflow
# This should print your experiment information
print(f"MLflow Tracking URI: {mlflow.get_tracking_uri()}")
print(f"Active Experiment ID: {mlflow.active_experiment().experiment_id}")
print(f"Experiment Name: {mlflow.active_experiment().name}")
步骤 1:安装 MLflow
Databricks 运行时包含 MLflow,但为了获得 GenAI 功能的最佳体验,请更新到最新版本
%pip install --upgrade "mlflow[databricks]>=3.1"
dbutils.library.restartPython()
步骤 2:创建一个 Notebook
创建 Databricks Notebook 将创建一个 MLflow 实验,该实验是您的 GenAI 应用程序的容器。 在数据模型部分中了解有关实验及其包含内容的更多信息。
- 打开您的 Databricks 工作区
- 转到左侧边栏顶部的新建
- 单击Notebook
步骤 3:配置身份验证
在 Databricks Notebook 中工作时,无需进行额外的身份验证配置。 Notebook 自动有权访问您的工作区和相关的 MLflow 实验。
步骤 4:验证您的连接
在 Notebook 单元格中运行此代码以验证您的连接
import mlflow
# This should print your experiment information
print(f"MLflow Tracking URI: {mlflow.get_tracking_uri()}")
print(f"Active Experiment ID: {mlflow.active_experiment().experiment_id}")
print(f"Experiment Name: {mlflow.active_experiment().name}")
后续步骤
现在您的环境已连接到 MLflow,请尝试其他 GenAI 快速入门
- 使用跟踪来检测您的应用:按照IDE 快速入门或Notebook 快速入门来检测您的第一个 GenAI 应用
- 评估您的应用的质量:使用评估快速入门来系统地测试和提高您的应用的质量