AI生产环境：不容脆弱的数据路径

2026年6月23日暂无评论阅读 70 次

AI生产环境：不容脆弱的数据路径

由F5提供

当企业将AI工作负载从试点项目扩展到生产环境时，数据交付往往成为决定这些系统能否可靠扩展的关键因素。直接连接存储与计算的点对点架构在演示条件下能够正常运作，但在持续的、并发的生产流量下却常常崩溃。这导致推理管道停滞、RAG系统延迟、GPU利用率低下以及服务水平协议违规，所有这些问题都会带来直接的业务影响。

“当基础设施能够处理现实世界的故障，而不仅仅是受控条件时，组织才能成功实现AI的运营化，”F5产品营销高级经理Hunter Smit表示。

生产流量暴露架构弱点

在试点阶段，传输停滞只是个小麻烦，但在生产环境中，同样的停滞却成为需要有人负责的中断事件。在这两种情况下，底层架构通常相同：当客户端直接连接到存储时，系统在持续的、并发的生产流量下会变得越来越脆弱，因为这种直接连接在节点故障或流量激增时无法应对。随后，重试和超时会级联发生，整个管道在业务依赖输出的那一刻完全堵塞。

“S3客户端直接连接到S3存储的点对点架构不具备弹性，”F5技术联盟首席解决方案架构师Paul Pindell表示。”如果单个存储节点发生故障，到该集群的所有流量都会降级，在某些情况下，整个集群可能完全失效。”

问题是，AI工作流（包括基于RAG的推理和智能体AI）越来越多地将S3存储视为AI集群中的一等公民。然而，该存储与集群之间的网络连接从未设计为需要保持GPU最佳运行所需的高吞吐量、不间断的数据传输。

停滞管道和低利用率GPU的真实成本

“企业领导者倾向于围绕GPU利用率来构建AI基础设施，但AI与传统确定性工作负载的不同之处在于，基础设施在每次交互中都会持续影响这些结果，”F5产品管理高级总监Tanu Mutreja表示。”在AI环境中，基础设施不再仅仅是后端问题。它通过每次交易塑造客户体验、质量、弹性和成本。”

可能带来显著的业务后果。例如，当推理管道停滞时，它就成为了服务水平和客户体验问题。当RAG系统延迟时，模型无法及时获取相关上下文，导致不准确、过时或幻觉性响应，所有这些都会产生运营、合规和声誉风险。同时，造成这些问题的基础设施问题也可能通过使昂贵的GPU资源闲置或利用率低下而推高成本。

“当GPU利用率低下时，它表明基础设施效率低下，这会增加成本，同时限制可扩展性和响应能力，”Mutreja说。”领导层需要思考的是，端到端AI基础设施是否能在可持续的单位经济效益下，持续提供可靠、安全、高质量且受管制的AI体验。”

构建生产就绪的数据交付层

F5将数据交付视为一流的基础设施层，而不是简单地假设网络路径能够正常工作。如果说应用优化了用户与应用之间请求的流动，那么数据交付则优化了存储、网络和计算（包括AI计算）之间数据的流动。

将数据交付作为一流层意味着在其构建三种特性：

可观察性：提供延迟、吞吐量和流量健康状况的实时可见性。
可编程性：通过动态路由、流量优化、速率管理和自动故障转移，实现基于策略的数据流动控制。
故障感知能力：为网络降级、存储限流和服务中断构建弹性。

在F5为Dell ObjectScale开发的架构中，F5 BIG-IP位于ObjectScale和AI计算之间，作为存储边缘的可编程控制点。

“我们曾遇到这样的情况，AI计算层的错误配置实际上对S3存储基础设施进行了DDoS攻击，”Pindell表示。”这不是恶意的，更像是一个’哦不，我做了什么’的时刻，但它仍然使整个组织的存储服务中断了。”

将BIG-IP作为应用交付控制器放置在存储和计算层之间，可以通过服务质量保证、速率限制和连接限制来保护存储，使其在这种负载下保持弹性和正常运行。SecureIQLab验证测试确认，这种保护不会以吞吐量为代价，这在架构上很重要，Pindell说。

“保持甚至提高吞吐量是必须的，”他解释道。”这使您能够叠加更高级别的功能和弹性以及增强的安全性，而无需为此牺牲性能。”

混合多云AI的额外复杂性

混合多云环境中的AI部署面临更大的数据交付挑战，因为这涉及到异构性。换句话说，穿越这些环境的数据必须应对不一致的策略、安全控制、身份系统、治理要求、碎片化的可见性和不同的故障边界。

可编程流量管理和可观察性共同应对这种复杂性。可观察性提供了跨越原本 disconnected 环境的应用、网络和基础设施健康状况的统一视图。可编程流量管理利用这些见解智能地路由、平衡和实时故障转移流量。它们共同创建了一个闭环反馈系统，该系统执行一致的政策，跨故障域提高弹性，并确保可靠、高性能的AI数据交付，无论应用程序、数据或用户位于何处。