用于生成式 AI 的 MLflow 运行数据模型
在 MLflow 3 中,运行 (Runs) 代表您的生成式 AI 应用程序的评估迭代,并作为模型演进的一部分直接附加到模型上。与早期 MLflow 版本中运行存在于实验 (experiments) 之下不同,现在的运行捕获的是用于测试和验证模型性能的特定评估会话。
概述
一次运行 (Run) 代表您的生成式 AI 模型的一次评估迭代——可以把它看作是您的模型或应用程序在特定测试会话中表现的快照。
作为模型演进快照的运行
每次运行都捕获了模型开发生命周期中的一个特定时刻
与其他实体的关系
运行将您的模型开发与系统化评估联系起来
关键关系
- 运行可以链接到模型:通过运行来跟踪迭代式模型或应用程序的开发
- 运行生成追踪 (Traces):评估的执行会创建追踪记录
- 运行产生评估 (Assessments):对模型性能的质量判断
- 运行使用数据集 (Datasets):针对精选示例进行系统化测试
- 运行应用评分器 (Scorers):自动化的评估函数
将运行附加到模型的好处
MLflow 3 将运行附加到模型的方法提供了
- 🎯 以模型为中心的组织:评估历史随模型一起保存
- 📈 演进跟踪:清晰地展现模型性能随时间的变化过程
- 🔍 聚焦分析:评估结果与记录的特定模型直接相关
- 🚀 简化的工作流:模型开发与测试之间的自然连接
这种以模型为中心的方法使您可以更轻松地了解您的生成式 AI 应用程序是如何演变的,以及哪些评估迭代带来了改进或退步。