跳到主要内容

用于生成式 AI 的 MLflow 运行数据模型

在 MLflow 3 中,运行 (Runs) 代表您的生成式 AI 应用程序的评估迭代,并作为模型演进的一部分直接附加到模型上。与早期 MLflow 版本中运行存在于实验 (experiments) 之下不同,现在的运行捕获的是用于测试和验证模型性能的特定评估会话。

概述

一次运行 (Run) 代表您的生成式 AI 模型的一次评估迭代——可以把它看作是您的模型或应用程序在特定测试会话中表现的快照。

作为模型演进快照的运行

每次运行都捕获了模型开发生命周期中的一个特定时刻

与其他实体的关系

运行将您的模型开发与系统化评估联系起来

关键关系

  • 运行可以链接到模型:通过运行来跟踪迭代式模型或应用程序的开发
  • 运行生成追踪 (Traces):评估的执行会创建追踪记录
  • 运行产生评估 (Assessments):对模型性能的质量判断
  • 运行使用数据集 (Datasets):针对精选示例进行系统化测试
  • 运行应用评分器 (Scorers):自动化的评估函数

将运行附加到模型的好处

MLflow 3 将运行附加到模型的方法提供了

  • 🎯 以模型为中心的组织:评估历史随模型一起保存
  • 📈 演进跟踪:清晰地展现模型性能随时间的变化过程
  • 🔍 聚焦分析:评估结果与记录的特定模型直接相关
  • 🚀 简化的工作流:模型开发与测试之间的自然连接

这种以模型为中心的方法使您可以更轻松地了解您的生成式 AI 应用程序是如何演变的,以及哪些评估迭代带来了改进或退步。