AI基准测试失真:被忽视的真实性能

多年来,企业AI团队一直致力于攻克算力难题,无论是争取GPU配额、协商云容量,还是对训练吞吐量进行基准测试,都投入了大量精力。这些工作的背后潜藏着一个假设:存储与计算之间的传输路径能够跟得上节奏。然而,在实际生产环境中,这一假设越来越站不住脚。真实流量会带来延迟峰值、网络抖动和节点退化,这些都是受控基准测试无法捕捉的变量。结果往往是,管道在实验室中表现优异,却在部署后陷入停滞。为了应对这一日益严峻的问题,业界正兴起一种名为“AI数据传输”的解决方案,即在存储前端部署应用交付控制器(ADC)或应用交付安全平台(ADSP),将其打造为一个具备韧性和安全性的控制点。
“资源配置解决了容量问题,却未解决传输问题,而当前的瓶颈正隐藏于此。”F5公司产品营销高级经理Hunter Smit指出,“企业往往购买了足够的GPU和存储,便默认两者之间的路径畅通无阻。但实际上,AI流量具有突发性强、并发度高和读取随机等特点,这是传统存储网络架构从未设计去吸收的。”
基准测试掩盖的生产环境鸿沟
F5公司技术联盟首席解决方案架构师Paul Pindell认为,标准的基准测试方法论在一定程度上加剧了这一问题。
“基准测试通常旨在展示最佳的性能或安全结果,而非最真实的结果,”Pindell解释道,“以S3为例,延迟是导致性能下降的已知因素,因此有意义的测试必须在路径中引入持续的延迟。”
然而,大多数基准环境从未这样做,这意味着企业用于基础设施决策的性能数据,源自生产系统永远无法复制的理想条件。为了验证这一假设,F5与MinIO在降级网络条件下进行了吞吐量测试。
“令人震惊的是,一旦引入延迟,S3吞吐量下降得如此之快,”Pindell说道,“即使是微小的延迟也会造成严重影响,随着延迟接近长距离传输水平,性能退化将变得极为严重。”
测试还揭示了一个反直觉的结论:在导致吞吐量损失方面,延迟的影响远大于抖动,这与团队最初的预期相反。这对企业架构师的启示是:S3对象存储的部署不能基于“无尘室”式的假设,而必须针对实际面临的网络降级条件进行工程设计。
脆弱数据路径的隐性成本
“在AI基础设施中,人们自然关注GPU,因为它们最显眼且昂贵,”F5公司产品管理高级总监Tanu Mutreja表示,“但在生产环境中,GPU产生的价值仅取决于供给它的数据路径。”
这条路径贯穿存储、网络、数据库、安全和编排层,通常由多个供应商的产品拼接而成。客户感知不到这些接缝,他们只体验整个系统的最终输出。
当数据路径降级时,负面影响会层层叠加。GPU利用率不足是最直接且可见的症状,但Mutreja指出了更广泛的一系列后果:
- 推理性能下降
- AI输出质量降低
- 因不必要的数据复制导致出口成本增加
- 运营复杂性不断攀升
“在大规模场景下,数据路径效率不再仅仅是技术优化,而是战略业务杠杆,”她强调,“当数据路径设计得当,GPU保持高效产出,AI应用响应灵敏且值得信赖,运营高效扩展,组织从而最大化AI投资回报。”
与传统企业应用相比,AI工作负载在面对这些故障时更为脆弱。传统数据库、ERP和Web服务可以通过缓存和缓冲来吸收暂时的存储延迟。而在大规模并行GPU集群上运行的AI工作负载没有类似的保护机制。如Mutreja所言,即使是微小的延迟峰值或带宽瓶颈,也会在大规模GPU集群中产生连锁反应,同时冲击利用率、训练效率和用户体验。
将存储边缘转化为控制中枢
几十年来,存储和智能在企业架构中是顺序考虑的:先存储数据,再在下游进行分析。Mutreja认为,这种模型已不再适应AI的需求。
“竞争优势不仅取决于数据量,还取决于数据的相关性、血缘、安全性和高性能传输,”她表示,“从NVIDIA、AWS到企业存储提供商,整个行业正趋向于将智能直接嵌入数据基础设施,而非简单堆叠。”
F5与MinIO的集成在存储与计算实际交互的层面体现了这一方法。作为F5 ADSP的一部分,BIG-IP位于数据路径中,持续监控MinIO分布式存储节点的健康状况,仅将请求导向可用节点。
当节点发生退化(这在分布式存储集群中是常态)时,这种能力的运营影响便显现出来。如果没有智能路由,命中不健康节点的客户端必须重试,可能再次遇到退化节点,从而拖累整体性能。
“F5确保流量只流向健康节点,甚至是最空闲的节点,从而使S3客户端流量始终以最高效的方式处理,”Pindell解释道。
分布式环境下的统一治理
随着规模扩大,当AI管道跨越多个位置、云或边缘环境时,挑战随之增长。
“一旦AI管道跨越区域和云,问题就不再仅仅是性能,而是控制,”Smit说,“你在每个司法管辖区都在不同的规则下运营,数字主权已成为设计约束。数据允许驻留何处、谁被允许触碰它、以及它不能跨越哪些边界,现在在谈论速度之前就已经塑造了架构。”
这种压力推动了一个明显的趋势:企业将AI工作负载从公共云迁回其拥有和直接治理的基础设施。Smit描述的架构通过将应用与任何单一存储位置解耦,并在它们之间放置一个统一控制点来强制执行一致策略,从而解决了这一问题。
“主权、弹性和成本不再是逐个区域管理的权衡,而是作为系统运行的一种能力,”他补充道。
存储到计算路径:受管控制点的新视角
为了解决这些问题,企业团队需要停止将存储到计算路径视为直接连接,而应开始将其视为受管控制点,Smit建议道。SecureIQLab对F5 BIG-IP在存储部署中的独立验证证实,该方法在不牺牲吞吐量的前提下提供了韧性。
“在两者之间插入全代理ADC,路径就变得可观察、可编程且具备故障感知能力,能够实现基于健康的路由、服务质量保障和内联安全执行,”他解释道,“这一举措将数据交付从一种假设转化为一种工程化纪律,这正是当条件降级时保持GPU供给的关键。”
关注微信号:智享开源 ,及时了解更新信息。
原文链接:https://venturebeat.com/orchestration/what-ai-benchmarks-miss-about-real-world-performance

关注微信

还没有任何评论,你来说两句吧!