GenAI 入门指南

面向生产级 GenAI 的完整开源 LLMOps 平台

MLflow 改变了软件工程师构建、评估和部署 GenAI 应用的方式。在保持使用任何框架或模型提供商的灵活性的同时，获得完整的可观测性、系统性评估和部署信心。

MLflow Tracing UI showing detailed GenAI observability

GenAI 开发生命周期

MLflow 提供了一个完整的平台，支持 GenAI 应用开发的每个阶段。从初步原型设计到生产监控，这些集成功能可确保您能够自信地构建、测试和部署。

开发与调试

跟踪每一次 LLM 调用、提示交互和工具调用。通过对执行路径、令牌使用情况和决策点的完全可见性来调试复杂的 AI 工作流。

评估与改进

使用 LLM 裁判、人工反馈和自定义指标进行系统性测试。客观地比较版本，并在出现回归之前将其捕获。

部署与监控

使用内置部署目标自信地提供模型。监控生产性能，并根据实际使用模式进行迭代。

为什么选择开源 MLflow 进行 GenAI？

作为最初的开源 ML 平台，MLflow 为 GenAI 开发带来了久经考验的可靠性和社区驱动的创新。没有供应商锁定，没有专有格式——只有与您的堆栈协同工作的强大工具。

生产级可观测性

自动检测 15 种以上框架，包括 OpenAI、LangChain 和 LlamaIndex。获取详细的跟踪信息，显示每次请求的令牌使用情况、延迟和执行路径——没有黑盒。

智能提示管理

使用 MLflow 的提示注册表来版本化、比较和部署提示。跟踪不同提示变体的性能，并维护生产系统的审计跟踪。

自动化质量保证

通过 LLM 裁判和自动化评估建立信心。对每次更改运行系统性测试，并随着时间推移跟踪质量指标以防止回归。

框架无关集成

使用任何 LLM 框架或提供商，无需供应商锁定。MLflow 可与您现有的工具协同工作，同时提供统一的跟踪、评估和部署。

开始构建生产级 GenAI 应用

MLflow 将 GenAI 开发从复杂的仪器化转变为简单的单行集成。了解如何轻松地为您的 AI 应用添加全面的可观测性、评估和部署。

一行代码即可添加完整的可观测性

将任何 GenAI 应用转化为完全可观测的系统

import mlflow

# Enable automatic tracing for your framework
mlflow.openai.autolog()  # For OpenAI
mlflow.langchain.autolog()  # For LangChain
mlflow.llama_index.autolog()  # For LlamaIndex
mlflow.dspy.autolog()  # For DSPy

# Your existing code now generates detailed traces
from openai import OpenAI

client = OpenAI()
response = client.chat.completions.create(
    model="gpt-4o-mini",
    messages=[{"role": "user", "content": "Explain quantum computing"}],
)
# ✅ Automatically traced: tokens, latency, cost, full request/response

无需代码更改。每一次 LLM 调用、工具交互和提示执行都会自动捕获详细的指标。

系统化管理和优化提示

使用 MLflow 的提示注册表注册提示并自动优化它们

import mlflow
from mlflow.genai.optimize import OptimizerConfig, LLMParams

# Register an initial prompt
initial_prompt = mlflow.genai.register_prompt(
    name="math_tutor",
    template="Answer this math question: {{question}}. Provide a clear explanation.",
)

# Prepare training data for optimization
train_data = [
    {"question": "What is 15 + 27?", "expected": "42"},
    {"question": "Calculate 8 × 9", "expected": "72"},
    # ... more examples
]

# Automatically optimize the prompt using MLflow + DSPy
result = mlflow.genai.optimize_prompt(
    target_llm_params=LLMParams(model_name="openai/gpt-4o-mini"),
    prompt=initial_prompt,
    train_data=train_data,
    eval_data=train_data[:5],  # Hold-out evaluation set
    optimizer_config=OptimizerConfig(
        num_instruction_candidates=5,  # Try 5 different prompt variations
        max_few_shot_examples=3,  # Include up to 3 examples
    ),
)

# The optimized prompt is automatically registered as a new version of the original prompt
optimized_prompt = result.optimized_prompt
print(
    f"Optimization improved accuracy from {result.baseline_score:.2f} to {result.optimized_score:.2f}"
)
print(
    f"Optimized prompt registered as version {optimized_prompt.version} of '{optimized_prompt.name}'"
)

# Deploy the best-performing version
with mlflow.start_run():
    # Use the optimized prompt in your application
    model_info = mlflow.openai.log_model(
        model="gpt-4o-mini",
        task="llm/v1/completions",
        name="math_tutor_optimized",
        prompts=[optimized_prompt],  # Link optimized prompt to model
    )
# ✅ Data-driven prompt optimization + automatic versioning + deployment