AI生产环境:不容脆弱的数据路径

AI生产环境:不容脆弱的数据路径

由F5提供


当企业将AI工作负载从试点项目扩展到生产环境时,数据交付往往成为决定这些系统能否可靠扩展的关键因素。直接连接存储与计算的点对点架构在演示条件下能够正常运作,但在持续的、并发的生产流量下却常常崩溃。这导致推理管道停滞、RAG系统延迟、GPU利用率低下以及服务水平协议违规,所有这些问题都会带来直接的业务影响。

“当基础设施能够处理现实世界的故障,而不仅仅是受控条件时,组织才能成功实现AI的运营化,”F5产品营销高级经理Hunter Smit表示。

生产流量暴露架构弱点

在试点阶段,传输停滞只是个小麻烦,但在生产环境中,同样的停滞却成为需要有人负责的中断事件。在这两种情况下,底层架构通常相同:当客户端直接连接到存储时,系统在持续的、并发的生产流量下会变得越来越脆弱,因为这种直接连接在节点故障或流量激增时无法应对。随后,重试和超时会级联发生,整个管道在业务依赖输出的那一刻完全堵塞。

“S3客户端直接连接到S3存储的点对点架构不具备弹性,”F5技术联盟首席解决方案架构师Paul Pindell表示。”如果单个存储节点发生故障,到该集群的所有流量都会降级,在某些情况下,整个集群可能完全失效。”

问题是,AI工作流(包括基于RAG的推理和智能体AI)越来越多地将S3存储视为AI集群中的一等公民。然而,该存储与集群之间的网络连接从未设计为需要保持GPU最佳运行所需的高吞吐量、不间断的数据传输。

停滞管道和低利用率GPU的真实成本

“企业领导者倾向于围绕GPU利用率来构建AI基础设施,但AI与传统确定性工作负载的不同之处在于,基础设施在每次交互中都会持续影响这些结果,”F5产品管理高级总监Tanu Mutreja表示。”在AI环境中,基础设施不再仅仅是后端问题。它通过每次交易塑造客户体验、质量、弹性和成本。”

可能带来显著的业务后果。例如,当推理管道停滞时,它就成为了服务水平和客户体验问题。当RAG系统延迟时,模型无法及时获取相关上下文,导致不准确、过时或幻觉性响应,所有这些都会产生运营、合规和声誉风险。同时,造成这些问题的基础设施问题也可能通过使昂贵的GPU资源闲置或利用率低下而推高成本。

“当GPU利用率低下时,它表明基础设施效率低下,这会增加成本,同时限制可扩展性和响应能力,”Mutreja说。”领导层需要思考的是,端到端AI基础设施是否能在可持续的单位经济效益下,持续提供可靠、安全、高质量且受管制的AI体验。”

构建生产就绪的数据交付层

F5将数据交付视为一流的基础设施层,而不是简单地假设网络路径能够正常工作。如果说应用优化了用户与应用之间请求的流动,那么数据交付则优化了存储、网络和计算(包括AI计算)之间数据的流动。

将数据交付作为一流层意味着在其构建三种特性:

  • 可观察性:提供延迟、吞吐量和流量健康状况的实时可见性。
  • 可编程性:通过动态路由、流量优化、速率管理和自动故障转移,实现基于策略的数据流动控制。
  • 故障感知能力:为网络降级、存储限流和服务中断构建弹性。

在F5为Dell ObjectScale开发的架构中,F5 BIG-IP位于ObjectScale和AI计算之间,作为存储边缘的可编程控制点。

“我们曾遇到这样的情况,AI计算层的错误配置实际上对S3存储基础设施进行了DDoS攻击,”Pindell表示。”这不是恶意的,更像是一个’哦不,我做了什么’的时刻,但它仍然使整个组织的存储服务中断了。”

将BIG-IP作为应用交付控制器放置在存储和计算层之间,可以通过服务质量保证、速率限制和连接限制来保护存储,使其在这种负载下保持弹性和正常运行。SecureIQLab验证测试确认,这种保护不会以吞吐量为代价,这在架构上很重要,Pindell说。

“保持甚至提高吞吐量是必须的,”他解释道。”这使您能够叠加更高级别的功能和弹性以及增强的安全性,而无需为此牺牲性能。”

混合多云AI的额外复杂性

混合多云环境中的AI部署面临更大的数据交付挑战,因为这涉及到异构性。换句话说,穿越这些环境的数据必须应对不一致的策略、安全控制、身份系统、治理要求、碎片化的可见性和不同的故障边界。

可编程流量管理和可观察性共同应对这种复杂性。可观察性提供了跨越原本 disconnected 环境的应用、网络和基础设施健康状况的统一视图。可编程流量管理利用这些见解智能地路由、平衡和实时故障转移流量。它们共同创建了一个闭环反馈系统,该系统执行一致的政策,跨故障域提高弹性,并确保可靠、高性能的AI数据交付,无论应用程序、数据或用户位于何处。

什么将生产AI与永久性项目区分开来

那些超越永久性项目的组织共享特定的工程纪律,Smit说。

“他们是那些将故障视为常态而非例外,从而采用生产设计理念的人,”他解释道。”他们将假设延迟、拥塞和部分中断会发生。他们构建一个数据路径,具有足够的可观察性和故障感知能力来吸收这些情况,并对每种降级条件有明确的缓解措施,而不是希望网络能够维持。”

陷入永久性项目的组织仍在为完美的实验室结果进行优化,只有在工作负载上线时才发现现实世界的差距。问题不在于模型质量或GPU数量,而数据交付层是否经过与计算层同样严格的工程化设计。

“团队需要了解,现实世界的网络行为与优化的实验室网络有很大不同,”Pindell说。”他们需要针对在生产中将会遇到的故障状态和性能瓶颈制定缓解计划。”


赞助内容由公司支付或与VentureBeat有业务关系,并且总是明确标记。如需更多信息,请联系

关注微信号:智享开源 ,及时了解更新信息。

原文链接:https://venturebeat.com/orchestration/a-proof-of-concept-forgives-a-fragile-data-path-operational-ai-does-not

评论列表
 
 
发表评论
😀 😂 😃 😄 😅 😆 😉 😊 😋 😎 😍 😘 🥰 😜 😝 🤗 🤔 😭 😤 👍

为你推荐
Ta的个人站点

Mark Do发布文章1587篇


关注微信

分类