版本跟踪数据模型

MLflow 的版本跟踪数据模型提供了一种结构化的方法，用于在 GenAI 应用程序的整个生命周期中管理和分析其不同版本。通过在 MLflow 的核心实体中组织版本元数据，您可以系统地跟踪性能、调试回归问题，并在开发、预发布和生产环境中验证部署。

概述

MLflow 中的版本跟踪通过策略性地使用标签和元数据，与核心数据模型无缝集成。这种方法实现了全面的版本管理，同时保持了适应您特定部署和开发工作流的灵活性。

版本跟踪的核心实体

🧪 实验：版本容器

实验 (Experiment) 充当您 GenAI 应用程序所有版本的根容器。在单个实验中，您可以跟踪多个应用程序版本、环境和部署状态，同时保持对应用程序演进的统一视图。

关键特性

单一命名空间：一个实验包含您应用程序的所有版本
跨版本分析：在同一容器内比较不同版本的性能
历史连续性：在一个位置维护完整的版本历史
统一元数据：所有版本之间一致的标签和组织

📝 追踪：感知版本的执行记录

每个追踪 (Trace) 代表您应用程序的一次执行，并通过标签携带特定版本的元数据。这使得能够细粒度地跟踪不同版本在各种上下文中的表现。

在追踪中捕获的版本元数据

标准版本标签 vs 自定义版本标签

标签类型	目的	示例
自动	MLflow 填充的元数据	`mlflow.source.git.commit`, `mlflow.source.name`
标准	保留用于特定含义	`mlflow.trace.session`, `mlflow.trace.user`
自定义	特定于应用程序的上下文	`app_version`, `environment`, `deployment_id`

📊 评估：特定版本的质量判断

评估 (Assessments) 通过将评估附加到追踪上，实现特定版本的质量分析。这为比较不同版本和部署上下文中的质量指标奠定了基础。

用于版本跟踪的评估类型

性能反馈：延迟、吞吐量、资源使用情况
质量反馈：相关性、准确性、有用性得分
用户体验：满意度评分、可用性指标
回归测试：用于版本验证的预期输出

🎯 评分器：自动化版本分析

评分器 (Scorers) 提供自动化的评估功能，可以检测特定版本的性能模式、回归和改进。它们将原始追踪数据转化为可操作的版本洞察。

📋 评估数据集：版本测试集合

评估数据集 (Evaluation Datasets) 通过提供精选的输入和预期输出集合，支持系统性的版本测试。这些数据集使得跨版本的一致比较和部署验证成为可能。

用于版本管理的数据集组织

回归测试：跨版本的核心功能验证
性能基准测试：标准化的性能测量
功能验证：新功能的测试和验证
环境测试：特定部署场景的验证

🚀 评估运行：版本比较引擎

评估运行 (Evaluation Runs) 通过针对相同数据集运行不同的应用程序版本，并收集评分结果进行分析，来协调系统性的版本比较。

🏷️ 标注会话：人工版本审查

标注会话 (Labeling Sessions) 组织来自特定版本的追踪，供人类专家审查，从而实现对版本变更和边缘案例的定性评估。

版本跟踪工作流

完整的版本跟踪工作流集成了所有数据模型实体，以提供全面的版本生命周期管理。

高级版本管理模式

多环境版本演进

跟踪同一版本在不同环境中的演进过程

功能标志版本分析

了解功能标志如何影响不同版本

版本回滚跟踪

监控版本回滚的影响

数据关系与依赖

了解版本跟踪实体之间的相互关系