评估与监控
MLflow 的评估和监控功能可帮助您在 GenAI 应用从开发到生产的整个生命周期中,系统地衡量、改进和维护其质量。
为何评估 GenAI 应用?
质量保证
确保您的 AI 在不同的输入和上下文中始终能产生准确、有用且安全的响应。
持续改进
通过系统性评估,跟踪长期性能并识别 AI 可以改进的具体领域。
人机协作
将自动化评估与人类专业知识相结合,创建全面的质量评估工作流。
生产监控
在实时生产环境中监控 AI 性能,以维持质量标准并及早发现问题。
反馈与期望
MLflow 提供了两种互补的 GenAI 评估方法,它们协同工作,共同创建全面的质量评估体系
反馈捕获了对您的 AI 实际表现的质量评估。这可以来自多个来源
- 人工评审员提供对响应质量的专家判断
- LLM 评判器提供规模化的自动评估
- 程序化检查验证格式、合规性和业务规则
期望定义了基准真相——即您的 AI 针对特定输入应该产生的内容。这为客观的准确性测量建立了参考点,并能够根据已知的正确答案进行系统性测试。
反馈和期望共同使您能够衡量主观质量和客观准确性,为您的 GenAI 应用创建一个完整的评估框架。