AI基准测试失真：被忽视的真实性能

Mark Do 1条评论阅读 333 次

AI基准测试失真：被忽视的真实性能

多年来，企业AI团队一直致力于攻克算力难题，无论是争取GPU配额、协商云容量，还是对训练吞吐量进行基准测试，都投入了大量精力。这些工作的背后潜藏着一个假设：存储与计算之间的传输路径能够跟得上节奏。然而，在实际生产环境中，这一假设越来越站不住脚。真实流量会带来延迟峰值、网络抖动和节点退化，这些都是受控基准测试无法捕捉的变量。结果往往是，管道在实验室中表现优异，却在部署后陷入停滞。为了应对这一日益严峻的问题，业界正兴起一种名为“AI数据传输”的解决方案，即在存储前端部署应用交付控制器（ADC）或应用交付安全平台（ADSP），将其打造为一个具备韧性和安全性的控制点。

“资源配置解决了容量问题，却未解决传输问题，而当前的瓶颈正隐藏于此。”F5公司产品营销高级经理Hunter Smit指出，“企业往往购买了足够的GPU和存储，便默认两者之间的路径畅通无阻。但实际上，AI流量具有突发性强、并发度高和读取随机等特点，这是传统存储网络架构从未设计去吸收的。”

基准测试掩盖的生产环境鸿沟

F5公司技术联盟首席解决方案架构师Paul Pindell认为，标准的基准测试方法论在一定程度上加剧了这一问题。

“基准测试通常旨在展示最佳的性能或安全结果，而非最真实的结果，”Pindell解释道，“以S3为例，延迟是导致性能下降的已知因素，因此有意义的测试必须在路径中引入持续的延迟。”

然而，大多数基准环境从未这样做，这意味着企业用于基础设施决策的性能数据，源自生产系统永远无法复制的理想条件。为了验证这一假设，F5与MinIO在降级网络条件下进行了吞吐量测试。

“令人震惊的是，一旦引入延迟，S3吞吐量下降得如此之快，”Pindell说道，“即使是微小的延迟也会造成严重影响，随着延迟接近长距离传输水平，性能退化将变得极为严重。”

测试还揭示了一个反直觉的结论：在导致吞吐量损失方面，延迟的影响远大于抖动，这与团队最初的预期相反。这对企业架构师的启示是：S3对象存储的部署不能基于“无尘室”式的假设，而必须针对实际面临的网络降级条件进行工程设计。

脆弱数据路径的隐性成本

“在AI基础设施中，人们自然关注GPU，因为它们最显眼且昂贵，”F5公司产品管理高级总监Tanu Mutreja表示，“但在生产环境中，GPU产生的价值仅取决于供给它的数据路径。”

这条路径贯穿存储、网络、数据库、安全和编排层，通常由多个供应商的产品拼接而成。客户感知不到这些接缝，他们只体验整个系统的最终输出。

当数据路径降级时，负面影响会层层叠加。GPU利用率不足是最直接且可见的症状，但Mutreja指出了更广泛的一系列后果：

推理性能下降
AI输出质量降低
因不必要的数据复制导致出口成本增加
运营复杂性不断攀升

“在大规模场景下，数据路径效率不再仅仅是技术优化，而是战略业务杠杆，”她强调，“当数据路径设计得当，GPU保持高效产出，AI应用响应灵敏且值得信赖，运营高效扩展，组织从而最大化AI投资回报。”

与传统企业应用相比，AI工作负载在面对这些故障时更为脆弱。传统数据库、ERP和Web服务可以通过缓存和缓冲来吸收暂时的存储延迟。而在大规模并行GPU集群上运行的AI工作负载没有类似的保护机制。如Mutreja所言，即使是微小的延迟峰值或带宽瓶颈，也会在大规模GPU集群中产生连锁反应，同时冲击利用率、训练效率和用户体验。