面向 GenAI 的 MLflow Experiments 数据模型

MLflow Experiments (实验) 是所有 GenAI 应用程序开发和生产活动的顶层组织容器。实验提供了一个统一的命名空间，将跟踪（traces）、模型、数据集、评估运行（evaluation runs）和其他 MLflow 实体汇集到一个统一的框架中，用于您的 GenAI 应用程序生命周期管理。

概述

实验是连接 GenAI 应用程序开发各个方面的中心枢纽，从最初的原型设计到生产部署和持续优化。

实验作为组织基础

🎯 单一应用焦点

每个实验代表一个独立的 GenAI 应用程序或服务。无论您是在构建聊天机器人、文档摘要器还是代码助手，所有相关工作都在单个实验容器内进行。

🔗 统一实体管理

与您的 GenAI 应用程序关联的所有 MLflow 实体都会自动继承实验的上下文，从而创建自然的关联并支持跨实体分析。

📊 生命周期连续性

从开发到生产，您的实验在应用程序生命周期的所有阶段都保持连续性。

实验中的 GenAI 实体

📝 跟踪 (Traces): 执行记录

跟踪记录了您的 GenAI 应用程序的单次运行，并始终与一个实验相关联。

与实验的关系

所有跟踪都只属于一个实验
跟踪继承实验级别的上下文和设置
跨跟踪分析在实验范围内进行

🤖 模型: AI 系统定义

模型代表您 GenAI 应用程序中使用的 AI 系统和配置。

与实验的关系

模型在特定实验内注册
模型版本跟踪您 GenAI 应用程序的演变
跟踪引用特定的模型版本以实现可复现性

📋 数据集: 评估集合

数据集包含用于测试和评估您的 GenAI 应用程序的精选示例。

与实验的关系

数据集的作用域限定在特定实验内
实现跨模型版本的一致性评估
支持系统化的测试和验证工作流

🚀 评估运行 (Evaluation Runs): 系统化测试

评估运行使用数据集和评分函数来协调对您的 GenAI 应用程序的系统化测试。

与实验的关系

评估运行属于特定实验
生成新的跟踪，成为实验的一部分
实现跨模型和版本的系统化比较

📊 评估 (Assessments): 质量判断

评估记录了对您实验内跟踪的质量评估和性能判断。

与实验的关系

评估附加到实验内的跟踪上
实现跨应用程序版本的质量跟踪
支持数据驱动的改进决策

🏷️ 标注会话 (Labeling Sessions): 人工审核

标注会话组织对您实验内跟踪的人工审核工作流。

与实验的关系

标注会话作用于实验内的跟踪
生成评估，丰富实验数据
实现对自动化评估的专家验证

完整的实验生态系统

所有 GenAI 实体在实验内协同工作，创建一个全面的开发和生产环境

以实验为中心的组织优势

🎯 统一上下文

所有相关实体共享通用的元数据和设置
跨实体分析在实验范围内自然发生
跨开发和生产的一致性组织

📊 全面跟踪

在单一位置获得完整的应用程序生命周期可见性
从初始开发到生产的历史连续性
版本比较和演进跟踪

🔄 简化的工作流

开发、测试和生产之间的自然集成
实体之间的自动化关系管理
简化相关组件的导航和发现

📈 数据驱动的洞见

应用程序性能和质量的整体视图
跨模型、版本和部署的系统化比较
持续改进流程的基础

实验管理最佳实践

🏗️ 组织结构

每个 GenAI 应用程序一个实验：在不同应用程序之间保持清晰的界限
描述性命名：为实验使用清晰、一致的命名约定
元数据一致性：应用一致的标签和组织模式

📊 数据管理

跟踪组织：使用一致的标签进行有效的过滤和分析
数据集策划：在每个实验内维护高质量的评估数据集
评估策略：实施系统化的质量测量方法

🔄 工作流集成

CI/CD 集成：将部署管道连接到实验跟踪
自动化评估：使用评估运行设置系统化测试
持续监控：实施对生产性能的持续评估

开始使用实验

为您的 GenAI 应用程序设置一个实验，为全面的跟踪和分析奠定基础

🧪 创建实验：为您的 GenAI 应用程序建立容器
📝 启用跟踪：从您的应用程序运行中捕获执行数据
📋 添加数据集：创建用于系统化测试的评估集合
🚀 运行评估：实施系统化的质量和性能测试
📊 分析结果：使用统一视图来驱动改进

实验提供了组织骨干，使所有其他 MLflow GenAI 功能成为可能，为开发、测试和维护高质量的 GenAI 应用程序创建了一种结构化的方法。

后续步骤

跟踪管理：了解如何在实验中捕获和组织执行数据
评估工作流：实施系统化的测试和质量测量
MLflow UI 导航：掌握用于探索实验数据和洞见的界面

MLflow 实验提供了必要的组织框架，统一了 GenAI 应用程序开发的各个方面，实现了对您的 AI 系统的系统化跟踪、评估和改进。

概述​

实验作为组织基础​

🎯 单一应用焦点​

🔗 统一实体管理​

📊 生命周期连续性​

实验中的 GenAI 实体​

📝 跟踪 (Traces): 执行记录​

🤖 模型: AI 系统定义​

📋 数据集: 评估集合​

🚀 评估运行 (Evaluation Runs): 系统化测试​

📊 评估 (Assessments): 质量判断​

🏷️ 标注会话 (Labeling Sessions): 人工审核​

完整的实验生态系统​

以实验为中心的组织优势​

🎯 统一上下文​

📊 全面跟踪​

🔄 简化的工作流​

📈 数据驱动的洞见​

实验管理最佳实践​

🏗️ 组织结构​

📊 数据管理​

🔄 工作流集成​

开始使用实验​

后续步骤​

概述

实验作为组织基础

🎯 单一应用焦点

🔗 统一实体管理

📊 生命周期连续性

实验中的 GenAI 实体

📝 跟踪 (Traces): 执行记录

🤖 模型: AI 系统定义

📋 数据集: 评估集合

🚀 评估运行 (Evaluation Runs): 系统化测试

📊 评估 (Assessments): 质量判断

🏷️ 标注会话 (Labeling Sessions): 人工审核

完整的实验生态系统

以实验为中心的组织优势

🎯 统一上下文

📊 全面跟踪

🔄 简化的工作流

📈 数据驱动的洞见

实验管理最佳实践

🏗️ 组织结构

📊 数据管理

🔄 工作流集成

开始使用实验

后续步骤