跳到主要内容

MLflow 痕迹数据模型,适用于生成式 AI

MLflow **痕迹**捕获您的生成式 AI 应用程序的完整执行流程,提供从输入到输出请求处理方式的详细可观测性。痕迹数据模型基于 OpenTelemetry 标准构建,为您的生成式 AI 系统的调试、性能分析和质量评估提供了丰富的上下文信息。

概述

痕迹代表您的生成式 AI 应用程序的一次单独执行,包含理解该特定请求期间发生的所有步骤、数据转换和上下文信息。

痕迹结构:两个核心组件

📊 痕迹信息:轻量级元数据

痕迹信息提供有关痕迹的基本元数据,以便快速导航、过滤和分析,而无需检查详细的执行数据。

📋 痕迹数据:详细执行

痕迹数据包含完整的执行详情,包括表示您的生成式 AI 应用程序中各个操作的所有 span。

Span 架构:构建块

Span 是基本单元,用于捕获痕迹中的各个操作。每个 span 代表您的生成式 AI 应用程序执行流程中的一个特定步骤。

用于生成式 AI 的专用 Span 类型

不同的 span 类型捕获具有定制数据结构的特定生成式 AI 操作

聊天模型 Span

聊天模型 span 捕获 LLM 交互,并带有用于对话数据的特殊属性

属性目的内容
mlflow.chat.messages对话历史系统/用户/助手消息列表
mlflow.chat.tools可用函数用于函数调用的工具定义

检索器 Span

检索器 span 捕获带有结构化输出的文档搜索操作

字段目的内容
page_content文档文本检索到的文档内容
metadata.doc_uri源位置文档源 URI
metadata.chunk_id片段标识符特定分块引用
id唯一标识符文档分块 ID

标签:可搜索上下文

标签提供可搜索的元数据,从而实现强大的过滤和分析功能

痕迹生命周期和使用模式

从开发到生产的流程

与其他 MLflow 实体的关系

痕迹与更广泛的 MLflow 生态系统集成,以实现全面的生成式 AI 应用程序管理

数据分析和质量模式

性能分析

痕迹通过 span 计时和属性实现全面的性能监控

  • 端到端延迟:总痕迹执行时间
  • 组件瓶颈:单个 span 性能
  • 资源利用率:令牌使用量、API 调用、计算成本
  • 错误模式:失败的 span 及其特性

质量评估

痕迹数据支持系统性的质量评估

  • 输入/输出验证:验证数据转换
  • 对话分析:聊天模型交互模式
  • 检索有效性:文档搜索性能
  • 错误关联:将故障与特定条件关联

商业智能

丰富的标签实现面向业务的分析

  • 用户行为:基于会话和用户的模式
  • 成本归因:按业务单元划分的资源使用量
  • 功能采纳:A/B 测试和功能标志分析
  • 运营指标:环境和部署性能

痕迹数据模型的优势

🔍 完整的可观测性

  • 分层可见性:理解嵌套操作关系
  • 丰富的上下文:标签和属性提供可搜索的元数据
  • OpenTelemetry 兼容性:与现有可观测性工具集成

📊 数据驱动的决策

  • 性能优化:识别瓶颈和改进机会
  • 质量跟踪:随时间监控应用程序质量趋势
  • 成本管理:跟踪资源使用和优化机会

🔄 开发集成

  • 调试支持:用于故障排除的详细执行流程
  • 评估数据集:从生产痕迹创建测试用例
  • 持续改进:系统化质量增强工作流

🎯 业务对齐

  • 以用户为中心的分析:按用户细分跟踪体验
  • 功能验证:衡量新功能的影响
  • 合规支持:审计跟踪和数据治理

开始使用痕迹数据

理解痕迹数据模型支持几种关键工作流

  1. 🔍 痕迹分析:查询和过滤痕迹以查找特定模式
  2. 📊 性能监控:跟踪应用程序的关键指标
  3. 🧪 质量评估:从痕迹数据创建系统性测试
  4. 💡 持续改进:利用洞察力提升您的生成式 AI 应用程序

分层 span 结构,结合丰富的元数据和专用模式,为全面的生成式 AI 应用程序可观测性和持续改进奠定了基础。