跳到主要内容

基于 LLM 的评分器(LLM 即评委)

LLM 即评委 (LLM-as-a-Judge) 是一种使用大型语言模型来评估 AI 生成回复质量的评估方法。LLM 评委可以评估主观质量,如帮助性和安全性,这些是使用启发式指标难以衡量的。另一方面,LLM 即评委评分器比人工评估更具可扩展性且成本更低。

创建 LLM 评分器的方法

MLflow 提供了不同的方法来使用 LLM 即评委,具有不同的简洁性和控制级别。点击下方的卡片,查看每种方法的详细指南。

选择 Judge 模型

默认情况下,MLflow 将使用 **OpenAI 的 GPT-4o-mini** 模型作为评委模型。您可以通过在评分器定义中将 `model` 参数传递覆盖值来更改评委模型。模型必须以 `<provider>:/<model-name>` 的格式指定。

from mlflow.genai.scorers import Correctness

Correctness(model="openai:/gpt-4o-mini")
Correctness(model="anthropic:/claude-4-opus")
Correctness(model="google:/gemini-2.0-flash")

支持的模型

MLflow 支持所有主要的 LLM 提供商

  • OpenAI / Azure OpenAI
  • Anthropic
  • Amazon Bedrock
  • Cohere
  • Together AI
  • LiteLLM 支持的所有其他提供商,例如 Google Gemini、xAI、Mistral 等。

要使用 LiteLLM 集成的模型,请运行 `pip install litellm` 安装 LiteLLM,并按照与原生支持的提供商相同的格式指定提供商和模型名称,例如 `gemini:/gemini-2.0-flash`。

信息

在 Databricks 中,默认模型设置为 Databricks 的研究型 LLM 评委

选择合适的 LLM 作为评委

LLM 模型的选择对评委的性能和成本有显著影响。以下是根据您的开发阶段和用例提供的建议

早期开发阶段(内部循环)

  • 推荐:从 GPT-4o 或 Claude Opus 等强大模型开始
  • 原因:当您开始代理开发之旅时,您通常缺乏
    • 特定用例的评分标准
    • 用于优化的标记数据
  • 优势:更智能的模型可以深入探索跟踪,识别模式,并帮助您了解系统中常见的问题
  • 权衡:成本较高,但在开发过程中评估量较低,这可以接受

生产和扩展阶段

  • 推荐:过渡到更小的模型(GPT-4o-mini、Claude Haiku)和更智能的优化器
  • 原因:当您转向生产时
    • 您已经收集了标记数据并建立了评分标准
    • 成本成为规模化生产的关键因素
    • 您可以使用更强大的优化器来对齐更小的评委
  • 方法:使用较小的评委模型搭配强大的优化器模型(例如,使用 Claude Opus 优化器对齐的 GPT-4o-mini 评委)