面向 GenAI 的 MLflow Experiments 数据模型
MLflow Experiments (实验) 是所有 GenAI 应用程序开发和生产活动的顶层组织容器。实验提供了一个统一的命名空间,将跟踪(traces)、模型、数据集、评估运行(evaluation runs)和其他 MLflow 实体汇集到一个统一的框架中,用于您的 GenAI 应用程序生命周期管理。
概述
实验是连接 GenAI 应用程序开发各个方面的中心枢纽,从最初的原型设计到生产部署和持续优化。
实验作为组织基础
🎯 单一应用焦点
每个实验代表一个独立的 GenAI 应用程序或服务。无论您是在构建聊天机器人、文档摘要器还是代码助手,所有相关工作都在单个实验容器内进行。
🔗 统一实体管理
与您的 GenAI 应用程序关联的所有 MLflow 实体都会自动继承实验的上下文,从而创建自然的关联并支持跨实体分析。
📊 生命周期连续性
从开发到生产,您的实验在应用程序生命周期的所有阶段都保持连续性。
实验中的 GenAI 实体
📝 跟踪 (Traces): 执行记录
跟踪记录了您的 GenAI 应用程序的单次运行,并始终与一个实验相关联。
与实验的关系
- 所有跟踪都只属于一个实验
- 跟踪继承实验级别的上下文和设置
- 跨跟踪分析在实验范围内进行
🤖 模型: AI 系统定义
模型代表您 GenAI 应用程序中使用的 AI 系统和配置。
与实验的关系
- 模型在特定实验内注册
- 模型版本跟踪您 GenAI 应用程序的演变
- 跟踪引用特定的模型版本以实现可复现性
📋 数据集: 评估集合
数据集包含用于测试和评估您的 GenAI 应用程序的精选示例。
与实验的关系
- 数据集的作用域限定在特定实验内
- 实现跨模型版本的一致性评估
- 支持系统化的测试和验证工作流
🚀 评估运行 (Evaluation Runs): 系统化测试
评估运行使用数据集和评分函数来协调对您的 GenAI 应用程序的系统化测试。
与实验的关系
- 评估运行属于特定实验
- 生成新的跟踪,成为实验的一部分
- 实现跨模型和版本的系统化比较
📊 评估 (Assessments): 质量判断
评估记录了对您实验内跟踪的质量评估和性能判断。
与实验的关系
- 评估附加到实验内的跟踪上
- 实现跨应用程序版本的质量跟踪
- 支持数据驱动的改进决策
🏷️ 标注会话 (Labeling Sessions): 人工审核
标注会话组织对您实验内跟踪的人工审核工作流。
与实验的关系
- 标注会话作用于实验内的跟踪
- 生成评估,丰富实验数据
- 实现对自动化评估的专家验证
完整的实验生态系统
所有 GenAI 实体在实验内协同工作,创建一个全面的开发和生产环境
以实验为中心的组织优势
🎯 统一上下文
- 所有相关实体共享通用的元数据和设置
- 跨实体分析在实验范围内自然发生
- 跨开发和生产的一致性组织
📊 全面跟踪
- 在单一位置获得完整的应用程序生命周期可见性
- 从初始开发到生产的历史连续性
- 版本比较和演进跟踪
🔄 简化的工作流
- 开发、测试和生产之间的自然集成
- 实体之间的自动化关系管理
- 简化相关组件的导航和发现
📈 数据驱动的洞见
- 应用程序性能和质量的整体视图
- 跨模型、版本和部署的系统化比较
- 持续改进流程的基础
实验管理最佳实践
🏗️ 组织结构
- 每个 GenAI 应用程序一个实验:在不同应用程序之间保持清晰的界限
- 描述性命名:为实验使用清晰、一致的命名约定
- 元数据一致性:应用一致的标签和组织模式
📊 数据管理
- 跟踪组织:使用一致的标签进行有效的过滤和分析
- 数据集策划:在每个实验内维护高质量的评估数据集
- 评估策略:实施系统化的质量测量方法
🔄 工作流集成
- CI/CD 集成:将部署管道连接到实验跟踪
- 自动化评估:使用评估运行设置系统化测试
- 持续监控:实施对生产性能的持续评估
开始使用实验
为您的 GenAI 应用程序设置一个实验,为全面的跟踪和分析奠定基础
- 🧪 创建实验:为您的 GenAI 应用程序建立容器
- 📝 启用跟踪:从您的应用程序运行中捕获执行数据
- 📋 添加数据集:创建用于系统化测试的评估集合
- 🚀 运行评估:实施系统化的质量和性能测试
- 📊 分析结果:使用统一视图来驱动改进
实验提供了组织骨干,使所有其他 MLflow GenAI 功能成为可能,为开发、测试和维护高质量的 GenAI 应用程序创建了一种结构化的方法。
后续步骤
- 跟踪管理:了解如何在实验中捕获和组织执行数据
- 评估工作流:实施系统化的测试和质量测量
- MLflow UI 导航:掌握用于探索实验数据和洞见的界面
MLflow 实验提供了必要的组织框架,统一了 GenAI 应用程序开发的各个方面,实现了对您的 AI 系统的系统化跟踪、评估和改进。