LLM 评估示例

下面列出的笔记本包含如何使用 MLflow 评估 LLM 的分步教程。

第一组笔记本围绕使用提示工程方法评估用于问答的 LLM。第二组围绕评估 RAG 系统。

所有笔记本都将演示如何使用 MLflow 的内置指标（例如 token_count 和 toxicity）以及 LLM 评估的智能指标（例如 answer_relevance）。

问答评估教程

了解如何使用 MLflow 评估各种 LLM 和 RAG 系统，利用毒性等简单指标以及相关性等 LLM 评估指标，甚至是专业性等自定义 LLM 评估指标。

了解如何评估 Hugging Face 中可用的各种开源 LLM，利用 MLflow 的内置 LLM 指标和实验跟踪来管理模型和评估结果。

了解如何使用 MLflow 评估 RAG 系统，利用 OpenAI GPT-4 模型作为评估器。

了解如何使用 MLflow 评估 RAG 系统，利用托管在 Databricks 服务端点上的 Llama 2 70B 模型。