跳到主要内容

面向 GenAI 的 MLflow Experiments 数据模型

MLflow Experiments (实验) 是所有 GenAI 应用程序开发和生产活动的顶层组织容器。实验提供了一个统一的命名空间,将跟踪(traces)、模型、数据集、评估运行(evaluation runs)和其他 MLflow 实体汇集到一个统一的框架中,用于您的 GenAI 应用程序生命周期管理。

概述

实验是连接 GenAI 应用程序开发各个方面的中心枢纽,从最初的原型设计到生产部署和持续优化。

实验作为组织基础

🎯 单一应用焦点

每个实验代表一个独立的 GenAI 应用程序或服务。无论您是在构建聊天机器人、文档摘要器还是代码助手,所有相关工作都在单个实验容器内进行。

🔗 统一实体管理

与您的 GenAI 应用程序关联的所有 MLflow 实体都会自动继承实验的上下文,从而创建自然的关联并支持跨实体分析。

📊 生命周期连续性

从开发到生产,您的实验在应用程序生命周期的所有阶段都保持连续性。

实验中的 GenAI 实体

📝 跟踪 (Traces): 执行记录

跟踪记录了您的 GenAI 应用程序的单次运行,并始终与一个实验相关联。

与实验的关系

  • 所有跟踪都只属于一个实验
  • 跟踪继承实验级别的上下文和设置
  • 跨跟踪分析在实验范围内进行

🤖 模型: AI 系统定义

模型代表您 GenAI 应用程序中使用的 AI 系统和配置。

与实验的关系

  • 模型在特定实验内注册
  • 模型版本跟踪您 GenAI 应用程序的演变
  • 跟踪引用特定的模型版本以实现可复现性

📋 数据集: 评估集合

数据集包含用于测试和评估您的 GenAI 应用程序的精选示例。

与实验的关系

  • 数据集的作用域限定在特定实验内
  • 实现跨模型版本的一致性评估
  • 支持系统化的测试和验证工作流

🚀 评估运行 (Evaluation Runs): 系统化测试

评估运行使用数据集和评分函数来协调对您的 GenAI 应用程序的系统化测试。

与实验的关系

  • 评估运行属于特定实验
  • 生成新的跟踪,成为实验的一部分
  • 实现跨模型和版本的系统化比较

📊 评估 (Assessments): 质量判断

评估记录了对您实验内跟踪的质量评估和性能判断。

与实验的关系

  • 评估附加到实验内的跟踪上
  • 实现跨应用程序版本的质量跟踪
  • 支持数据驱动的改进决策

🏷️ 标注会话 (Labeling Sessions): 人工审核

标注会话组织对您实验内跟踪的人工审核工作流。

与实验的关系

  • 标注会话作用于实验内的跟踪
  • 生成评估,丰富实验数据
  • 实现对自动化评估的专家验证

完整的实验生态系统

所有 GenAI 实体在实验内协同工作,创建一个全面的开发和生产环境

以实验为中心的组织优势

🎯 统一上下文

  • 所有相关实体共享通用的元数据和设置
  • 跨实体分析在实验范围内自然发生
  • 跨开发和生产的一致性组织

📊 全面跟踪

  • 在单一位置获得完整的应用程序生命周期可见性
  • 从初始开发到生产的历史连续性
  • 版本比较和演进跟踪

🔄 简化的工作流

  • 开发、测试和生产之间的自然集成
  • 实体之间的自动化关系管理
  • 简化相关组件的导航和发现

📈 数据驱动的洞见

  • 应用程序性能和质量的整体视图
  • 跨模型、版本和部署的系统化比较
  • 持续改进流程的基础

实验管理最佳实践

🏗️ 组织结构

  • 每个 GenAI 应用程序一个实验:在不同应用程序之间保持清晰的界限
  • 描述性命名:为实验使用清晰、一致的命名约定
  • 元数据一致性:应用一致的标签和组织模式

📊 数据管理

  • 跟踪组织:使用一致的标签进行有效的过滤和分析
  • 数据集策划:在每个实验内维护高质量的评估数据集
  • 评估策略:实施系统化的质量测量方法

🔄 工作流集成

  • CI/CD 集成:将部署管道连接到实验跟踪
  • 自动化评估:使用评估运行设置系统化测试
  • 持续监控:实施对生产性能的持续评估

开始使用实验

为您的 GenAI 应用程序设置一个实验,为全面的跟踪和分析奠定基础

  1. 🧪 创建实验:为您的 GenAI 应用程序建立容器
  2. 📝 启用跟踪:从您的应用程序运行中捕获执行数据
  3. 📋 添加数据集:创建用于系统化测试的评估集合
  4. 🚀 运行评估:实施系统化的质量和性能测试
  5. 📊 分析结果:使用统一视图来驱动改进

实验提供了组织骨干,使所有其他 MLflow GenAI 功能成为可能,为开发、测试和维护高质量的 GenAI 应用程序创建了一种结构化的方法。

后续步骤

MLflow 实验提供了必要的组织框架,统一了 GenAI 应用程序开发的各个方面,实现了对您的 AI 系统的系统化跟踪、评估和改进。