2023 年度回顾
MLflow 的月下载量超过 1600 万,已成为全球领先的开源 MLOps 平台。这一成就彰显了 MLflow 的强大功能以及持续改进和完善它的活跃社区。
过去一年是 MLflow 的重要里程碑,尤其是在生成式 AI 领域。其对大型语言模型(LLM)的集成和支持尤为突出。这一战略性决策推动 MLflow 走在了 AI 革命的最前沿,使其成为首屈一指的生成式 AI(GenAI)平台,使用户能够创建更智能、高效和适应性强的 AI 模型和应用。
2023:生成式 AI 与创新之年
去年对 MLflow 来说是卓越的一年,尤其是在集成大型语言模型(LLM)和其他生成式 AI 工具方面。通过为传统机器学习、深度学习和生成式 AI 应用提供统一的平台和工作流,MLflow 取得了显著发展。这种集成确保了无与伦比的效率和创新。MLflow 致力于改进 LLM 支持,彻底改变了用户创建和监督 AI 工作流的方式,使其成为构建高级机器学习应用不可或缺的工具。
与领先 AI 工具的集成
MLflow 成功集成了对流行 AI 服务/框架(如 Hugging Face、LangChain 和 OpenAI)的支持,同时提供了统一且与框架无关的接口,用于对其进行打包、评估和部署。这些集成拓展了 MLflow 用户的视野,使他们能够在 MLflow 工作流中无缝利用这些高级 AI 工具的功能。
LLM 模型打包
鉴于大型语言模型(LLM)的日益普及和实用性,MLflow 一直致力于增强对这些模型的打包支持。借助 MLflow 为 Hugging Face、LangChain 和 OpenAI 提供的新内置模型“风味”,用户可以在几分钟内记录和部署他们的 LLM 和生成式 AI 应用。
检索增强生成(RAG)与 MLflow 集成
检索增强生成(RAG)是自然语言处理中一种有效的方法。它将预训练模型与检索机制相结合,以访问文档数据集,从而获取经过验证和整理的内容,而不是仅仅依靠纯生成。这种方法显著提高了生成回复的上下文相关性和事实准确性。通过 mlflow.evaluate(),用户可以比较不同提示词、模型、向量数据库等方面的 RAG 系统。更多详情请参阅博文:《使用 MLflow 评估检索增强生成(RAG)系统》。
MLflow 2.9.0 中的 MLflow 部署服务器
MLflow 部署服务器简化了来自 OpenAI、MosaicML、Anthropic、Hugging Face、Cohere、MLflow 模型等各种提供商的 LLM 使用和管理。除了支持流行的 SaaS LLM 提供商之外,MLflow 部署服务器还与 MLflow 模型服务集成,使用户能够在其服务基础设施中部署自己的 LLM 或微调后的基础模型。MLflow 部署服务器还为不同提供商和服务提供统一的推理 API,使得查询和组合它们变得更加容易。它使用集中存储的安全密钥,因此用户不再需要与组织中的每个成员共享敏感的 API 密钥。这简化了我们与语言模型的交互方式,为 API 密钥管理增加了一层额外的安全性。
MLflow 2.8.0 中增强的 MLflow Evaluate API
MLflow Evaluate API 进行了显著的功能增强,以更好地支持 LLM 工作流并整合了多种新的评估模式,包括支持“以 LLM 为评判标准”的指标。这一升级后的 API 能够对 LLM 性能进行更精细和彻底的分析。
MLflow 2.7.0 中的提示工程 UI
MLflow 推出了 提示工程 UI,这是一个专门为大型语言模型(LLM)中高效的提示词开发、测试和评估而设计的工具。这个用户友好的界面和全面的工具包显著提高了 LLM 工作流中提示工程的可访问性和效率。
社区发展与参与
2023 年,MLflow 博客作为 MLflow 网站的新增部分正式推出。这一全新版块标志着在促进社区参与和 MLflow 生态系统内知识交流方面迈出了关键一步。博客是分享新功能、改进以及 MLflow 项目未来发展方向的直接渠道。
2023 年,MLflow 粉丝数量突破 45,000!不仅如此,在 X 和 领英上,MLflow 的内容展示次数(曝光量)超过 100 万。在 MLflow 贡献者增长方面,2023 年 MLflow 的贡献者数量从 530 人增长到 690 人。
MLflow 文档重塑
我们已着手实施一项重大举措,旨在重新构想用户与我们内容互动的方式。除了更新外观和感觉外,主要目标是增强清晰度、改善导航并为我们的社区提供更深入的资源。MLflow 文档的全面改造是一个重要的里程碑,但这仅仅是个开始。我们有一个充满激动人心更新、新内容和功能的路线图。无论是撰写教程、分享用例还是提供反馈,每一份贡献都丰富了 MLflow 社区。
2023 年活动
MLflow 在两项重要活动中产生了巨大影响:NeurIPS 2023 和 Data+AI Summit 2023。这些活动强调了 MLflow 在机器学习和 AI 领域不断发展的讨论中做出的贡献,并突出了其在塑造这些充满活力的领域未来方面的关键作用。Data+AI Summit 于 2023 年 6 月举行,期间举办了多场与 MLflow 相关的分会。其中,有两个分会特别引人注目:
- 开源 LLM 工具的进展,包括 MLflow:探讨了 MLflow 如何与 Hugging Face、LangChain 和 OpenAI 等领先的生成式 AI 工具无缝集成。它强调了这些集成如何实现 AI 工作流的轻松构建。
- 德州游骑兵队如何通过现代数据湖仓革新棒球数据分析:全面深入地介绍了德州游骑兵棒球队如何利用 MLflow 和 Databricks 彻底改变他们的数据分析方法。
2023 年 12 月,MLflow 参加了在路易斯安那州新奥尔良举行的第 37 届神经信息处理系统年度会议 (NeurIPS)。NeurIPS 是机器学习和计算神经科学领域最负盛名的会议之一。对于那些寻求针对通用指令遵循任务微调大型语言模型指导的人来说,NeurIPS 会议上的 “LIMIT:评估范式下指令微调的少即是多”专题报告提供了宝贵的见解。
保持联系
如果您有兴趣加入 MLflow 社区,我们非常乐意与您建立联系!欢迎通过 Slack、Google Groups 和 GitHub 加入我们。我们有一个充满激动人心更新、新内容和功能的路线图。无论是撰写教程、开发代码、分享用例还是提供反馈,让我们一起努力!您已经是 MLflow 贡献者了吗?新推出的 MLflow 大使计划是提升您参与度的好方法。作为 MLflow 大使,您将成为我们尊贵的全球大使之一,在推动 MLflow 在全球数据社区中的采用和提高其知名度方面发挥关键作用。我们诚挚邀请您在此提交申请。
展望未来
“2024 年,我们将推出新举措,以吸引、支持和扩展我们的社区。MLflow 很高兴今年能通过战略合作和伙伴关系拓展其视野”,Databricks 软件工程师 Ben Wilson 表示。“这种合作将为我们的用户带来新的机遇,并极大地促进 MLflow 的发展。敬请期待关于这项激动人心工作的公告。”
2023 年是 MLflow 的转型期。通过采纳最新的机器学习(ML)和生成式 AI(GenAI)进展,MLflow 改进了其平台,并为更广泛的 AI 和机器学习社区做出了重大贡献。我们向 MLflow 社区致以最深切的感谢。
在过去一年中,您为 MLflow 的成功做出了重要贡献。无论是增强现有功能、探索新集成,还是分享您的专业知识,您的贡献都是 MLflow 社区的生命线。如果您有兴趣为 MLflow 做出贡献,这份指南是一个很好的起点。展望未来,我们对可以共同探索的无限可能性和新领域感到兴奋。
MLflow 有望继续其增长和创新之路,巩固其在管理整个生命周期的机器学习和生成式 AI 工作流方面的领导地位。我们渴望不断突破 AI 领域的界限,努力创造一个创新、包容和开放的未来。