跳到主要内容

GenAI 应用的版本跟踪

MLflow 的 LoggedModel 为您的整个 GenAI 应用提供系统的版本控制——包括代码、配置、评估和跟踪。停止丢失对有效内容的追踪,并通过完整的应用生命周期管理自信地进行构建。

MLflow UI showing LoggedModel with linked traces for version tracking

为什么版本控制对 GenAI 至关重要

GenAI 应用是具有相互依赖组件的复杂系统。如果没有系统的版本控制,开发将变得混乱,部署风险也随之增加。

消除“昨天还能用”的困境

确切地知道哪种代码、提示和配置组合产生了任何结果。通过完整的上下文重现成功并调试失败。

充满信心地进行数据驱动的部署

使用质量分数、成本和延迟等指标客观地比较应用版本。根据证据而不是直觉选择最佳的执行者。

追踪每次变更的影响

链接代码提交、配置更改和评估结果。当质量下降时,精确找出发生了什么变化以及何时发生。

保持生产环境的可审计性

确切地知道何时部署了哪个版本。对于合规性、事件响应和监管要求至关重要。

LoggedModel 如何为 GenAI 版本控制提供支持

MLflow 的 LoggedModel 适应了传统的 ML 模型版本控制,用于 GenAI 应用。它不再仅仅追踪模型权重,而是成为一个全面的元数据中心,协调您 AI 系统的所有动态部分。

应用状态快照

每个 LoggedModel 版本都会捕获一个完整的应用状态——代码引用、配置、依赖项和性能数据,都包含在一个版本化的实体中。

灵活的代码管理

链接到外部 git 提交以进行轻量级版本控制,或直接打包代码以进行部署。选择适合您工作流程的方法。

自动关联跟踪

当您设置活动模型上下文时,所有后续的跟踪都会自动链接到该版本。无需手动记录。

5 分钟内开始版本跟踪

只需几行代码,即可将混乱的 GenAI 开发转化为系统的版本控制。

通过 Git 集成自动进行版本跟踪

将您的应用版本链接到 git 提交,以实现完整的可追溯性

import mlflow
import openai
import os

# Fix: Added missing import
os.environ["OPENAI_API_KEY"] = "your-api-key-here"

# Configure MLflow experiment
mlflow.set_experiment("customer-support-agent")

# Get current git commit using MLflow's built-in utilities
from mlflow.utils.git_utils import get_git_commit

git_commit = get_git_commit(".")
if git_commit:
git_commit = git_commit[:8] # Use short hash
else:
git_commit = "local-dev" # Fallback if not in git repo

# Create version identifier
app_name = "customer_support_agent"
version_name = f"{app_name}-{git_commit}"

# Set active model context - all traces will link to this version
mlflow.set_active_model(name=version_name)

# Enable automatic tracing
mlflow.openai.autolog()

# Your application code - now automatically versioned and traced
client = openai.OpenAI()
test_questions = [
"How do I reset my password?",
"What are your business hours?",
"Can I get a refund for my order?",
]

for question in test_questions:
response = client.chat.completions.create(
model="gpt-4o-mini",
messages=[{"role": "user", "content": question}],
temperature=0.7,
max_tokens=1000,
)
# ✅ Automatically: traced, versioned, and linked to git commit

自动进行的操作

  • 每次 LLM 调用都会生成详细的跟踪
  • 所有跟踪都链接到您的特定应用版本
  • Git 提交提供精确的代码可复现性
  • 可以客观地比较版本性能

简化的版本管理

# Create a new version for experimentation
with mlflow.set_active_model(name=f"agent-v2-{new_commit}"):
# Test new prompt engineering approach
improved_response = client.chat.completions.create(
model="gpt-4o-mini",
messages=[
{
"role": "system",
"content": "You are a helpful customer support agent. Be concise and actionable.",
},
{"role": "user", "content": question},
],
temperature=0.3, # Lower temperature for consistency
max_tokens=500, # More focused responses
)
# ✅ New version automatically tracked with different configurations

上下文管理器自动处理版本切换——干净、清晰且无错误。

系统地比较版本

import pandas as pd

# Evaluate multiple versions against the same test set
eval_data = pd.DataFrame(
{
"inputs": test_questions,
"expected_categories": ["account", "business_info", "billing"],
}
)

# Version A: Original configuration
results_v1 = mlflow.evaluate(
model_uri=f"models:/{app_name}-{commit_v1}",
data=eval_data,
extra_metrics=[
mlflow.metrics.toxicity(),
mlflow.metrics.latency(),
mlflow.metrics.flesch_kincaid_grade_level(),
],
)

# Version B: Improved prompts
results_v2 = mlflow.evaluate(
model_uri=f"models:/{app_name}-{commit_v2}",
data=eval_data,
extra_metrics=[
mlflow.metrics.toxicity(),
mlflow.metrics.latency(),
mlflow.metrics.flesch_kincaid_grade_level(),
],
)

# ✅ Side-by-side comparison shows which version performs better

客观指标消除了版本选择中的猜测。

先决条件

准备好实施系统的版本跟踪了吗?您需要

  • MLflow 3.0+ (pip install --upgrade "mlflow>=3.1")
  • 用于您的应用代码的Git 存储库
  • Python 3.10+
  • LLM API 访问 (OpenAI, Anthropic 等)
提示

对于 Databricks 托管的 MLflow 跟踪:pip install --upgrade "mlflow[databricks]>=3.1"


高级版本跟踪功能

掌握了基本的版本跟踪后,探索这些用于生产 GenAI 应用的高级模式。

从上面的代码示例开始,然后随着您的应用复杂度的增加,探索高级功能。