MLflow 痕迹数据模型,适用于生成式 AI
MLflow **痕迹**捕获您的生成式 AI 应用程序的完整执行流程,提供从输入到输出请求处理方式的详细可观测性。痕迹数据模型基于 OpenTelemetry 标准构建,为您的生成式 AI 系统的调试、性能分析和质量评估提供了丰富的上下文信息。
概述
痕迹代表您的生成式 AI 应用程序的一次单独执行,包含理解该特定请求期间发生的所有步骤、数据转换和上下文信息。
痕迹结构:两个核心组件
📊 痕迹信息:轻量级元数据
痕迹信息提供有关痕迹的基本元数据,以便快速导航、过滤和分析,而无需检查详细的执行数据。
📋 痕迹数据:详细执行
痕迹数据包含完整的执行详情,包括表示您的生成式 AI 应用程序中各个操作的所有 span。
Span 架构:构建块
Span 是基本单元,用于捕获痕迹中的各个操作。每个 span 代表您的生成式 AI 应用程序执行流程中的一个特定步骤。
用于生成式 AI 的专用 Span 类型
不同的 span 类型捕获具有定制数据结构的特定生成式 AI 操作
聊天模型 Span
聊天模型 span 捕获 LLM 交互,并带有用于对话数据的特殊属性
属性 | 目的 | 内容 |
---|---|---|
mlflow.chat.messages | 对话历史 | 系统/用户/助手消息列表 |
mlflow.chat.tools | 可用函数 | 用于函数调用的工具定义 |
检索器 Span
检索器 span 捕获带有结构化输出的文档搜索操作
字段 | 目的 | 内容 |
---|---|---|
page_content | 文档文本 | 检索到的文档内容 |
metadata.doc_uri | 源位置 | 文档源 URI |
metadata.chunk_id | 片段标识符 | 特定分块引用 |
id | 唯一标识符 | 文档分块 ID |
标签:可搜索上下文
标签提供可搜索的元数据,从而实现强大的过滤和分析功能
痕迹生命周期和使用模式
从开发到生产的流程
与其他 MLflow 实体的关系
痕迹与更广泛的 MLflow 生态系统集成,以实现全面的生成式 AI 应用程序管理
数据分析和质量模式
性能分析
痕迹通过 span 计时和属性实现全面的性能监控
- 端到端延迟:总痕迹执行时间
- 组件瓶颈:单个 span 性能
- 资源利用率:令牌使用量、API 调用、计算成本
- 错误模式:失败的 span 及其特性
质量评估
痕迹数据支持系统性的质量评估
- 输入/输出验证:验证数据转换
- 对话分析:聊天模型交互模式
- 检索有效性:文档搜索性能
- 错误关联:将故障与特定条件关联
商业智能
丰富的标签实现面向业务的分析
- 用户行为:基于会话和用户的模式
- 成本归因:按业务单元划分的资源使用量
- 功能采纳:A/B 测试和功能标志分析
- 运营指标:环境和部署性能
痕迹数据模型的优势
🔍 完整的可观测性
- 分层可见性:理解嵌套操作关系
- 丰富的上下文:标签和属性提供可搜索的元数据
- OpenTelemetry 兼容性:与现有可观测性工具集成
📊 数据驱动的决策
- 性能优化:识别瓶颈和改进机会
- 质量跟踪:随时间监控应用程序质量趋势
- 成本管理:跟踪资源使用和优化机会
🔄 开发集成
- 调试支持:用于故障排除的详细执行流程
- 评估数据集:从生产痕迹创建测试用例
- 持续改进:系统化质量增强工作流
🎯 业务对齐
- 以用户为中心的分析:按用户细分跟踪体验
- 功能验证:衡量新功能的影响
- 合规支持:审计跟踪和数据治理
开始使用痕迹数据
理解痕迹数据模型支持几种关键工作流
- 🔍 痕迹分析:查询和过滤痕迹以查找特定模式
- 📊 性能监控:跟踪应用程序的关键指标
- 🧪 质量评估:从痕迹数据创建系统性测试
- 💡 持续改进:利用洞察力提升您的生成式 AI 应用程序
分层 span 结构,结合丰富的元数据和专用模式,为全面的生成式 AI 应用程序可观测性和持续改进奠定了基础。