MLflow 评估
本文档介绍了 MLflow 的经典评估系统 (mlflow.evaluate),该系统使用 EvaluationMetric 和 make_metric 来定义自定义指标。
对于 GenAI/LLM 评估,请使用 GenAI 评估 系统,该系统使用
mlflow.genai.evaluate()而不是mlflow.evaluate()Scorer对象而不是EvaluationMetric- 内置的 LLM 评估器和评分器
重要提示:这两个系统不兼容。EvaluationMetric 对象不能与 mlflow.genai.evaluate() 一起使用,Scorer 对象也不能与 mlflow.evaluate() 一起使用。
简介
模型评估是可靠的机器学习的基石,它将训练好的模型转化为值得信赖的、可投入生产的系统。MLflow 全面的评估框架超越了简单的准确率指标,通过自动化测试、可视化和验证管道,深入了解模型行为、性能特征和实际可用性。
MLflow 的评估功能使高级模型评估民主化,使各种规模的团队都能使用复杂的评估技术。从快速原型设计到企业部署,MLflow 评估确保您的模型符合可靠性、公平性和性能的最高标准。
为什么全面的模型评估很重要
为什么选择 MLflow 评估?
MLflow 的评估框架为模型评估和验证提供了一个全面的解决方案
- ⚡ 一行评估:通过
mlflow.evaluate()进行全面的模型评估 - 只需最少的配置 - 🎛️ 灵活的评估模式:使用相同的统一 API 评估模型、函数或静态数据集
- 📊 丰富的可视化:自动生成性能图、混淆矩阵和诊断图
- 🔧 自定义指标:使用易于使用的指标构建器定义领域特定的评估标准
- 🧠 内置可解释性:SHAP 集成,用于模型解释和特征重要性分析
- 👥 团队协作:通过 MLflow 的跟踪界面共享评估结果和模型比较
- 🏭 企业集成:适用于 Giskard 和 Trubrics 等专业评估框架的插件架构
核心评估功能
自动化模型评估
MLflow 评估将复杂的模型评估转化为简单、可重复的工作流
import mlflow
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_wine
# Load and prepare data
wine = load_wine()
X_train, X_test, y_train, y_test = train_test_split(
wine.data, wine.target, test_size=0.2, random_state=42
)
# Train model
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)
# Create evaluation dataset
eval_data = X_test
eval_data["target"] = y_test
with mlflow.start_run():
# Log model
mlflow.sklearn.log_model(model, name="model")
# Comprehensive evaluation with one line
result = mlflow.models.evaluate(
model="models:/my-model/1",
data=eval_data,
targets="target",
model_type="classifier",
evaluators=["default"],
)
自动生成的内容
灵活的评估模式
MLflow 支持多种评估方法以适应您的工作流
全面的评估选项
专业评估领域
我们的全面评估框架分为专门的领域,每个领域都为模型评估的特定方面而设计
通过 SHAP 值、特征重要性分析和可解释 AI 功能进行深入的模型解释,实现透明的 ML。
通过 Giskard 等漏洞扫描插件和 Trubrics 等高级验证插件来扩展评估功能。
高级评估功能
企业集成
生产级评估
实际应用
MLflow 评估在各种机器学习应用中表现出色
- 🏦 金融服务:信用评分模型验证、欺诈检测性能评估和法规遵从评估
- 🏥 医疗保健:医疗 AI 模型验证、诊断准确性评估和安全关键模型认证
- 🛒 电子商务:推荐系统评估、搜索相关性评估和个性化有效性衡量
- 🚗 自动驾驶系统:安全关键模型验证、边缘案例分析和自动驾驶汽车的鲁棒性测试
- 🎯 营销技术:营销活动效果衡量、客户细分验证和归因模型评估
- 🏭 制造业:质量控制模型验证、预测性维护评估和流程优化评估
- 📱 技术平台:内容审核有效性、用户行为预测准确性和系统性能优化
开始使用
准备好使用 MLflow 提升您的模型评估实践了吗?选择最适合您当前需求的评估方法
快速入门建议
无论您是在验证第一个模型还是在实现企业级评估框架,MLflow 的全面评估套件都提供了构建值得信赖、可靠的机器学习系统所需的工具和见解,这些系统能够自信地带来真正的业务价值。