LLM 评估示例
下面列出的 Notebooks 包含关于如何使用 MLflow 评估 LLM 的分步教程。
第一组 Notebooks 侧重于使用提示工程方法评估用于问答的 LLM。第二组侧重于评估 RAG 系统。
所有 Notebooks 都将演示如何使用 MLflow 的内置指标,例如 token_count 和 toxicity,以及 LLM 评判的智能指标,例如 answer_relevance。
问答评估教程
使用 MLflow 进行 LLM 问答评估
了解如何使用 MLflow 评估各种 LLM 和 RAG 系统,利用毒性等简单指标,以及 LLM 评判的相关性指标,甚至专业性等自定义 LLM 评判指标。
使用 MLflow 评估 🤗 Hugging Face LLM
了解如何使用 MLflow 评估 Hugging Face 中提供的各种开源 LLM,利用 MLflow 的内置 LLM 指标和实验跟踪来管理模型和评估结果。