LLM 评估示例
下面列出的 Notebook 包含关于如何使用 MLflow 评估 LLM 的逐步教程。
第一组 Notebook 重点介绍使用提示工程方法评估 LLM 的问答能力。第二组重点介绍评估 RAG 系统。
所有 Notebook 都将演示如何使用 MLflow 的内置指标(例如 token_count 和 toxicity)以及 LLM 评估的智能指标(例如 answer_relevance)。
QA 评估教程
使用 MLflow 进行 LLM 问答评估
了解如何使用 MLflow 评估各种 LLM 和 RAG 系统,利用简单的指标(例如毒性),以及 LLM 评估的指标(如相关性),甚至自定义的 LLM 评估指标(如专业性)。
使用 MLflow 评估 🤗 Hugging Face LLM
了解如何评估 Hugging Face 中提供的各种开源 LLM,利用 MLflow 的内置 LLM 指标和实验跟踪来管理模型和评估结果。