LLM 评估示例
下面列出的笔记本包含如何使用 MLflow 评估 LLM 的分步教程。
第一组笔记本围绕使用提示工程方法评估用于问答的 LLM。第二组围绕评估 RAG 系统。
所有笔记本都将演示如何使用 MLflow 的内置指标(例如 token_count 和 toxicity)以及 LLM 评估的智能指标(例如 answer_relevance)。
问答评估教程
使用 MLflow 进行 LLM 问答评估
了解如何使用 MLflow 评估各种 LLM 和 RAG 系统,利用毒性等简单指标以及相关性等 LLM 评估指标,甚至是专业性等自定义 LLM 评估指标。
使用 MLflow 评估 🤗 Hugging Face LLM
了解如何评估 Hugging Face 中可用的各种开源 LLM,利用 MLflow 的内置 LLM 指标和实验跟踪来管理模型和评估结果。