插件评估器

MLflow 的评估框架专为可扩展性而设计，允许专业的评估插件无缝集成到核心评估工作流中。这些插件通过特定领域的验证、高级漏洞扫描以及更广泛的 ML 社区开发的专业测试框架来扩展 MLflow 的能力。

可用插件

MLflow 目前支持两个强大的评估插件，它们为您的模型评估工作流带来专业的验证能力。

Giskard 插件 - 高级漏洞扫描

Giskard 插件扩展了 MLflow 的验证能力，以帮助在问题进入生产环境之前预测它们。这个全面的扫描工具可以检测传统指标可能遗漏的隐藏漏洞。

关键能力

漏洞检测：Giskard 扫描模型以识别关键问题，包括：

性能偏差 - 不同群体之间的性能不均
不鲁棒性 - 对微小输入变化的敏感性
过度自信 - 对预测过度自信
自信不足 - 对准确预测的置信度不足
道德偏差 - 歧视性行为模式
数据泄露 - 信息从目标泄露到特征
随机性 - 不可预测的模型行为
虚假相关 - 错误的因果关系

分析功能:

🔍 样本探索：检查突出显示已发现漏洞的特定数据样本
📊 量化指标：将漏洞记录为 MLflow 中定义明确、可衡量的指标
🔄 模型比较：比较不同模型版本和架构的漏洞指标

开始使用 Giskard

探索这些示例实现，以了解 Giskard 的实际应用。

表格 ML 模型 - 传统的监督学习漏洞评估
文本 ML 模型 (LLM) - 语言模型特定漏洞扫描

如需全面的文档和设置说明，请访问 Giskard-MLflow 集成文档。

Trubrics 插件 - 灵活的验证框架

Trubrics 插件提供了一个灵活的验证框架，通过自定义验证逻辑和全面的结果报告来扩展 MLflow 的评估能力。

关键能力

验证功能:

📋 现成的验证：针对常见 ML 场景的大量预构建验证检查库
🔧 自定义 Python 函数：使用任何自定义 Python 函数或业务逻辑验证运行
📊 全面报告：以结构化的 JSON 格式查看所有验证结果，便于诊断

工作流集成:

⚡ 灵活的验证逻辑：定义符合您特定用例要求的验证标准
🔍 详细诊断：确切了解 MLflow 运行可能因何验证失败
📈 结果跟踪：在模型实验旁边维护完整的验证历史记录

开始使用 Trubrics

通过官方示例笔记本，了解该插件的实际应用，该笔记本演示了常见的验证模式和集成工作流。

如需完整的文档和设置说明，请访问 Trubrics-MLflow 集成文档。

集成优势

插件评估器无缝集成到 MLflow 现有的评估框架中，提供：

🔄 统一工作流：在同一评估运行中与标准 MLflow 评估器一起使用插件
📊 一致的报告：插件结果与其他评估指标一起显示在 MLflow 的跟踪界面中
🏗️ 可扩展的架构：为自定义评估工具和框架提供轻松的集成路径
📈 可扩展的验证：将插件评估作为自动化模型验证管道的一部分运行

后续步骤

准备好通过专业插件增强您的模型评估了吗？

选择您的插件：选择 Giskard 进行漏洞扫描，或选择 Trubrics 进行灵活验证
查看示例：探索提供的示例笔记本，以了解集成模式
安装和配置：按照特定于插件的文档进行设置说明
与 MLflow 集成：将插件评估器添加到您现有的 mlflow.evaluate() 工作流中

这些强大的插件展示了 MLflow 评估框架的可扩展性，并提供了对 ML 社区领域专家开发的专业验证能力的即时访问。

可用插件​

Giskard 插件 - 高级漏洞扫描​

关键能力​

开始使用 Giskard​

Trubrics 插件 - 灵活的验证框架​

关键能力​

开始使用 Trubrics​

集成优势​

后续步骤​

可用插件

Giskard 插件 - 高级漏洞扫描

关键能力

开始使用 Giskard

Trubrics 插件 - 灵活的验证框架

关键能力

开始使用 Trubrics

集成优势

后续步骤