LLM 评估示例

下面列出的 Notebooks 包含关于如何使用 MLflow 评估 LLM 的分步教程。

第一组 Notebooks 侧重于使用提示工程方法评估用于问答的 LLM。第二组侧重于评估 RAG 系统。

所有 Notebooks 都将演示如何使用 MLflow 的内置指标，例如 token_count 和 toxicity，以及 LLM 评判的智能指标，例如 answer_relevance。

问答评估教程

了解如何使用 MLflow 评估各种 LLM 和 RAG 系统，利用毒性等简单指标，以及 LLM 评判的相关性指标，甚至专业性等自定义 LLM 评判指标。

了解如何使用 MLflow 评估 Hugging Face 中提供的各种开源 LLM，利用 MLflow 的内置 LLM 指标和实验跟踪来管理模型和评估结果。

了解如何使用 MLflow 评估 RAG 系统，利用 OpenAI GPT-4 模型作为评判者。

了解如何使用 MLflow 评估 RAG 系统，利用托管在 Databricks 服务端点上的 Llama 2 70B 模型作为评判者。