跳到主要内容

评估与监控

MLflow 的评估和监控功能可帮助您在 GenAI 应用从开发到生产的整个生命周期中,系统地衡量、改进和维护其质量。

为何评估 GenAI 应用?

质量保证

确保您的 AI 在不同的输入和上下文中始终能产生准确、有用且安全的响应。

持续改进

通过系统性评估,跟踪长期性能并识别 AI 可以改进的具体领域。

人机协作

将自动化评估与人类专业知识相结合,创建全面的质量评估工作流。

生产监控

在实时生产环境中监控 AI 性能,以维持质量标准并及早发现问题。

反馈与期望

MLflow 提供了两种互补的 GenAI 评估方法,它们协同工作,共同创建全面的质量评估体系

反馈捕获了对您的 AI 实际表现的质量评估。这可以来自多个来源

  • 人工评审员提供对响应质量的专家判断
  • LLM 评判器提供规模化的自动评估
  • 程序化检查验证格式、合规性和业务规则

期望定义了基准真相——即您的 AI 针对特定输入应该产生的内容。这为客观的准确性测量建立了参考点,并能够根据已知的正确答案进行系统性测试。

反馈和期望共同使您能够衡量主观质量和客观准确性,为您的 GenAI 应用创建一个完整的评估框架。

其他评估选项