MLflow 实验 GenAI 数据模型
MLflow 实验是所有 GenAI 应用程序开发和生产活动的顶层组织容器。实验提供了一个统一的命名空间,将跟踪、模型、数据集、评估运行和其他 MLflow 实体汇集在一个内聚的框架下,用于您的 GenAI 应用程序生命周期。
概述
实验充当着连接 GenAI 应用程序开发所有方面的中心枢纽,从最初的原型开发到生产部署和持续优化。
作为组织基础的实验
🎯 单一应用程序焦点
每个实验代表一个独立的 GenAI 应用程序或服务。无论您是构建聊天机器人、文档摘要器还是代码助手,所有相关工作都在一个单一的实验容器中进行。
🔗 统一实体管理
与您的 GenAI 应用程序相关联的所有 MLflow 实体都会自动继承实验上下文,从而建立自然的关联并实现跨实体分析。
📊 生命周期连续性
从开发到生产,您的实验在应用程序生命周期的所有阶段保持连续性。
实验中的 GenAI 实体
📝 跟踪:执行记录
跟踪捕获 GenAI 应用程序的单个运行,并且始终与一个实验相关联。
与实验的关系
- 所有跟踪都只属于一个实验
- 跟踪继承实验级别的上下文和设置
- 跨跟踪分析在实验范围内进行
🤖 模型:AI 系统定义
模型代表 GenAI 应用程序中使用的 AI 系统和配置。
与实验的关系
- 模型在特定实验中注册
- 模型版本跟踪 GenAI 应用程序的演进
- 跟踪引用特定模型版本以实现可重现性
📋 数据集:评估集合
数据集包含用于测试和评估 GenAI 应用程序的精心策划的示例。
与实验的关系
- 数据集被限定在特定实验范围内
- 实现跨模型版本的一致评估
- 支持系统测试和验证工作流
🚀 评估运行:系统测试
评估运行使用数据集和评分函数来协调 GenAI 应用程序的系统测试。
与实验的关系
- 评估运行属于特定实验
- 生成新的跟踪,这些跟踪成为实验的一部分
- 实现跨模型和版本的系统比较
📊 评估结果:质量判断
评估结果捕获实验中跟踪的质量评估和性能判断。
与实验的关系
- 评估结果附加到实验中的跟踪
- 实现跨应用程序版本的质量跟踪
- 支持数据驱动的改进决策
🏷️ 标注会话:人工审核
标注会话组织实验中跟踪的人工审核工作流。
与实验的关系
- 标注会话在实验内的跟踪上操作
- 生成评估结果以丰富实验数据
- 实现自动化评估的专家验证
完整的实验生态系统
所有 GenAI 实体在实验中协同工作,创建一个全面的开发和生产环境
以实验为中心的组织优势
🎯 统一上下文
- 所有相关实体共享共同的元数据和设置
- 跨实体分析在实验范围内自然发生
- 开发和生产之间的一致组织
📊 全面跟踪
- 在一个位置提供完整的应用程序生命周期可见性
- 从初始开发到生产的历史连续性
- 版本比较和演进跟踪
🔄 精简工作流
- 开发、测试和生产之间的自然集成
- 实体之间自动化的关系管理
- 简化相关组件的导航和发现
📈 数据驱动洞察
- 应用程序性能和质量的整体视图
- 跨模型、版本和部署的系统比较
- 持续改进流程的基础
实验管理最佳实践
🏗️ 组织结构
- 每个 GenAI 应用程序一个实验:保持不同应用程序之间的清晰界限
- 描述性命名:为实验使用清晰、一致的命名规范
- 元数据一致性:应用一致的标签和组织模式
📊 数据管理
- 跟踪组织:使用一致的标签进行有效筛选和分析
- 数据集管理:在每个实验中维护高质量的评估数据集
- 评估策略:实施系统化的质量测量方法
🔄 工作流集成
- CI/CD 集成:将部署管道连接到实验跟踪
- 自动化评估:使用评估运行设置系统测试
- 持续监控:实施对生产性能的持续评估
实验入门
为您的 GenAI 应用程序设置实验,为全面的跟踪和分析奠定基础
- 🧪 创建实验:为您的 GenAI 应用程序建立容器
- 📝 启用跟踪:捕获应用程序运行的执行数据
- 📋 添加数据集:创建用于系统测试的评估集合
- 🚀 运行评估:实施系统质量和性能测试
- 📊 分析结果:使用统一视图推动改进
实验提供了组织主干,使所有其他 MLflow GenAI 功能得以实现,为开发、测试和维护高质量 GenAI 应用程序创建了结构化方法。
后续步骤
- 跟踪管理:了解如何在实验中捕获和组织执行数据
- 评估工作流:实施系统测试和质量测量
- MLflow UI 导航:掌握用于探索实验数据和洞察的界面
MLflow 实验提供了基本的组织框架,统一了 GenAI 应用程序开发的所有方面,实现了 AI 系统的系统跟踪、评估和改进。