插件评估器
MLflow 的评估框架旨在具有可扩展性,允许专门的评估插件与核心评估工作流程无缝集成。这些插件通过领域特定的验证、高级漏洞扫描以及更广泛的 ML 社区开发的专用测试框架来扩展 MLflow 的功能。
可用插件
MLflow 目前支持两个强大的评估插件,它们为您的模型评估工作流程带来专门的验证功能
Giskard 插件 - 高级漏洞扫描
Giskard 插件扩展了 MLflow 的验证功能,有助于在问题到达生产环境之前预测问题。这种全面的扫描工具可以检测到传统指标可能遗漏的隐藏漏洞。
主要功能
漏洞检测:Giskard 扫描模型以识别关键问题,包括
- 性能偏差 - 不同群体之间的性能不均
- 不稳健性 - 对微小输入变化的敏感性
- 过度自信 - 对预测的过度自信
- 自信不足 - 对准确预测的信心不足
- 伦理偏差 - 歧视性行为模式
- 数据泄露 - 从目标到特征的信息泄露
- 随机性 - 不可预测的模型行为
- 虚假相关性 - 错误的因果关系
分析功能:
- 🔍 样本探索:检查突出显示已发现漏洞的特定数据样本
- 📊 量化指标:将漏洞记录为 MLflow 中定义明确、可衡量的指标
- 🔄 模型比较:比较不同模型版本和架构之间的漏洞指标
Giskard 入门
探索这些示例实现以了解 Giskard 的实际应用
- 表格 ML 模型 - 传统的监督学习漏洞评估
- 文本 ML 模型 (LLM) - 特定于语言模型的漏洞扫描
有关完整的文档和设置说明,请访问 Giskard-MLflow 集成文档。
Trubrics 插件 - 灵活的验证框架
Trubrics 插件提供了一个灵活的验证框架,它通过自定义验证逻辑和全面的结果报告来扩展 MLflow 的评估功能。
主要功能
验证功能:
- 📋 开箱即用的验证:用于常见 ML 场景的大型预构建验证检查库
- 🔧 自定义 Python 函数:使用任何自定义 Python 函数或业务逻辑来验证运行
- 📊 全面的报告:以结构化的 JSON 格式查看所有验证结果,以便于诊断
工作流程集成:
- ⚡ 灵活的验证逻辑:定义与您的特定用例要求相匹配的验证标准
- 🔍 详细的诊断:准确了解 MLflow 运行可能未通过验证的原因
- 📈 结果跟踪:与您的模型实验一起维护完整的验证历史记录
Trubrics 入门
通过官方示例笔记本了解插件的实际应用,该笔记本演示了常见的验证模式和集成工作流程。
有关完整的文档和设置说明,请访问 Trubrics-MLflow 集成文档。
集成优势
插件评估器与 MLflow 现有的评估框架无缝集成,提供
- 🔄 统一的工作流程:在同一次评估运行中,将插件与标准 MLflow 评估器一起使用
- 📊 一致的报告:插件结果与其他评估指标一起出现在 MLflow 的跟踪界面中
- 🏗️ 可扩展的架构:用于自定义评估工具和框架的简易集成路径
- 📈 可扩展的验证:将插件评估作为自动化模型验证管道的一部分运行
后续步骤
准备好使用专用插件来增强您的模型评估了吗?
- 选择您的插件:选择 Giskard 进行漏洞扫描,或选择 Trubrics 进行灵活验证
- 查看示例:浏览提供的示例笔记本以了解集成模式
- 安装和配置:按照插件特定的文档获取设置说明
- 与 MLflow 集成:将插件评估器添加到您现有的
mlflow.evaluate()
工作流程
这些强大的插件展示了 MLflow 评估框架的可扩展性,并提供了对 ML 社区领域专家开发的专用验证功能的即时访问。