评估与监控评估与监控 MLflow 的评估和监控功能可帮助您在生成式 AI 应用程序的整个生命周期中(从开发到生产)系统地衡量、改进和维护其质量。 LLM 评估(旧版)MLflow 提供基于经典 mlflow.evaluate API 构建的 LLM 评估功能。如果您使用自托管或本地 MLflow,请点击此卡片了解更多可用评估选项。LLM/生成式 AI 新评估套件(仅限托管服务)MLflow 3 引入了 LLM/生成式 AI 的新评估套件。此新套件仅在 Databricks 上的托管式 MLflow 中可用,但即将推出开源 MLflow 版本。如果您有兴趣通过免费的 Databricks 试用版进行尝试,请点击此卡片了解更多信息。