跳到主要内容
入门
打开主菜单
组件
生成式 AI
快速交付高质量的生成式 AI
功能
可观测性
评估
提示词注册表
应用程序版本控制
AI 网关
模型训练
精通机器学习生命周期
功能
实验跟踪
模型评估
MLflow 模型
模型注册表和部署
组件
发布
博客
文档
模型训练
开始使用传统机器学习工作流、超参数调优和模型生命周期管理的核心功能。
GenAI 应用和代理
了解如何跟踪、评估和优化您的 GenAI 应用程序和代理工作流。
文档
大使计划
入门
生成式 AI
快速交付高质量的生成式 AI
功能
可观测性
评估
提示词注册表
应用程序版本控制
AI 网关
模型训练
精通机器学习生命周期
功能
实验跟踪
模型评估
MLflow 模型
模型注册表和部署
模型训练
开始使用传统机器学习工作流、超参数调优和模型生命周期管理的核心功能。
GenAI 应用和代理
了解如何跟踪、评估和优化您的 GenAI 应用程序和代理工作流。
7 篇标记为“evaluation”的帖子
查看所有标签
精选
使用 GEPA 对 OpenAI Agents 进行系统化提示优化
提示工程对于构建可靠的 AI 系统至关重要,但它充满了挑战。手动迭代耗时,缺乏系统性的改进保证,并且常常产生不一致的结果。如果您的系统有多个不同的提示,情况会更糟。为了解决这个问题,已经开发了 GEPA 和 MIPRO 等自动联合提示优化算法。虽然 DSPy 使这些优化技术在其框架内易于使用,但将它们应用于其他代理框架——例如 OpenAI Agents SDK、LangChain 或 Pydantic AI——在历史上需要大量的集成工作。
2025 年 10 月 15 日
使用 Claude Agent SDK 和 MLflow 快速原型化和评估代理
2025 年 9 月 15 日
超越手动构建的 LLM 评判器:使用 MLflow 自动化构建领域特定的评估器
2025 年 8 月 30 日
使用 MLflow 构建和管理基于 LLM 的 OCR 系统
2025 年 8 月 11 日
MLflow 中的评估 UI
2025 年 7 月 24 日
MLflow 与 TypeScript 相遇:使用 MLflow 调试和监控全栈 AI 应用程序
2025 年 6 月 9 日
宣布推出 MLflow 3