跳到主要内容

MLflow 实验 GenAI 数据模型

MLflow 实验是所有 GenAI 应用程序开发和生产活动的顶层组织容器。实验提供了一个统一的命名空间,将跟踪、模型、数据集、评估运行和其他 MLflow 实体汇集在一个内聚的框架下,用于您的 GenAI 应用程序生命周期。

概述

实验充当着连接 GenAI 应用程序开发所有方面的中心枢纽,从最初的原型开发到生产部署和持续优化。

作为组织基础的实验

🎯 单一应用程序焦点

每个实验代表一个独立的 GenAI 应用程序或服务。无论您是构建聊天机器人、文档摘要器还是代码助手,所有相关工作都在一个单一的实验容器中进行。

🔗 统一实体管理

与您的 GenAI 应用程序相关联的所有 MLflow 实体都会自动继承实验上下文,从而建立自然的关联并实现跨实体分析。

📊 生命周期连续性

从开发到生产,您的实验在应用程序生命周期的所有阶段保持连续性。

实验中的 GenAI 实体

📝 跟踪:执行记录

跟踪捕获 GenAI 应用程序的单个运行,并且始终与一个实验相关联。

与实验的关系

  • 所有跟踪都只属于一个实验
  • 跟踪继承实验级别的上下文和设置
  • 跨跟踪分析在实验范围内进行

🤖 模型:AI 系统定义

模型代表 GenAI 应用程序中使用的 AI 系统和配置。

与实验的关系

  • 模型在特定实验中注册
  • 模型版本跟踪 GenAI 应用程序的演进
  • 跟踪引用特定模型版本以实现可重现性

📋 数据集:评估集合

数据集包含用于测试和评估 GenAI 应用程序的精心策划的示例。

与实验的关系

  • 数据集被限定在特定实验范围内
  • 实现跨模型版本的一致评估
  • 支持系统测试和验证工作流

🚀 评估运行:系统测试

评估运行使用数据集和评分函数来协调 GenAI 应用程序的系统测试。

与实验的关系

  • 评估运行属于特定实验
  • 生成新的跟踪,这些跟踪成为实验的一部分
  • 实现跨模型和版本的系统比较

📊 评估结果:质量判断

评估结果捕获实验中跟踪的质量评估和性能判断。

与实验的关系

  • 评估结果附加到实验中的跟踪
  • 实现跨应用程序版本的质量跟踪
  • 支持数据驱动的改进决策

🏷️ 标注会话:人工审核

标注会话组织实验中跟踪的人工审核工作流。

与实验的关系

  • 标注会话在实验内的跟踪上操作
  • 生成评估结果以丰富实验数据
  • 实现自动化评估的专家验证

完整的实验生态系统

所有 GenAI 实体在实验中协同工作,创建一个全面的开发和生产环境

以实验为中心的组织优势

🎯 统一上下文

  • 所有相关实体共享共同的元数据和设置
  • 跨实体分析在实验范围内自然发生
  • 开发和生产之间的一致组织

📊 全面跟踪

  • 在一个位置提供完整的应用程序生命周期可见性
  • 从初始开发到生产的历史连续性
  • 版本比较和演进跟踪

🔄 精简工作流

  • 开发、测试和生产之间的自然集成
  • 实体之间自动化的关系管理
  • 简化相关组件的导航和发现

📈 数据驱动洞察

  • 应用程序性能和质量的整体视图
  • 跨模型、版本和部署的系统比较
  • 持续改进流程的基础

实验管理最佳实践

🏗️ 组织结构

  • 每个 GenAI 应用程序一个实验:保持不同应用程序之间的清晰界限
  • 描述性命名:为实验使用清晰、一致的命名规范
  • 元数据一致性:应用一致的标签和组织模式

📊 数据管理

  • 跟踪组织:使用一致的标签进行有效筛选和分析
  • 数据集管理:在每个实验中维护高质量的评估数据集
  • 评估策略:实施系统化的质量测量方法

🔄 工作流集成

  • CI/CD 集成:将部署管道连接到实验跟踪
  • 自动化评估:使用评估运行设置系统测试
  • 持续监控:实施对生产性能的持续评估

实验入门

为您的 GenAI 应用程序设置实验,为全面的跟踪和分析奠定基础

  1. 🧪 创建实验:为您的 GenAI 应用程序建立容器
  2. 📝 启用跟踪:捕获应用程序运行的执行数据
  3. 📋 添加数据集:创建用于系统测试的评估集合
  4. 🚀 运行评估:实施系统质量和性能测试
  5. 📊 分析结果:使用统一视图推动改进

实验提供了组织主干,使所有其他 MLflow GenAI 功能得以实现,为开发、测试和维护高质量 GenAI 应用程序创建了结构化方法。

后续步骤

MLflow 实验提供了基本的组织框架,统一了 GenAI 应用程序开发的所有方面,实现了 AI 系统的系统跟踪、评估和改进。