企业AI智能体可靠性成瓶颈，重建时代来临

Mark Do 暂无评论阅读 103 次

当企业AI智能体逐步投入生产环境时，组织正面临日益严峻的可靠性挑战。许多团队发现，仅靠大语言模型（LLM）的表现并不能决定智能体在生产线上的成败。长期运行的AI工作流必须能够抵御崩溃、保存状态、从故障中恢复、管理推理成本，并协调跨API、工具和企业系统。

Temporal Technologies工程高级副总裁Preeti Somal在纽约举行的最新AI影响力系列活动中指出，在经历了第一波快速部署后，组织现在需要重新审视那些第一代实现，并围绕工作流编排、可观测性、治理和恢复，重新设计早期的智能体架构。

Somal说：“我们确实有很多客户来找我们，他们在构建同一智能体的2.0版本。他们之前需要快速推进，但没有处理好底层基础设施（plumbing）。结果系统崩溃，然后他们不得不在可靠的基础上重建。”

对于工作流编排公司Temporal而言，其基础设施在当前智能体AI浪潮之前就已存在，这一转变反映了更广泛的企业认知：生产AI系统需要持久的执行能力、状态管理、工作流可见性，以及在模型或下游系统故障时恢复的机制。

智能体AI放大了熟悉的工程问题

“这些模式并非全新，AI只是放大了它们。”Somal表示。智能体系统引入额外复杂性，因为它们通常涉及跨越多个服务、模型、API和工具的长期、多步骤流程。单个工作流可能调用多个大语言模型，访问检索系统，触发外部应用程序，并在数小时或数天内管理状态。Somal指出，工程问题往往在部署后才浮现。

“人们会编写智能体，却没考虑如果智能体崩溃会发生什么。我需要重新运行整个智能体流程吗？”她举例道。

对于在成本约束下运营的企业而言，答案至关重要。故障后重启工作流会成倍增加推理费用，延长延迟，并导致糟糕的客户体验。

Somal将当前时刻比作企业云采用的早期阶段，当时组织直接迁移工作负载，却未考虑若想让这些工作负载经久耐用，需要重新设计底层架构。她说：“这种在尚未现代化应用程序的情况下匆忙做AI的做法，让我想起当时的‘lift-and-shift’。大家都意识到，在云上花了更多钱，却没获得价值。”

企业工作流越来越多地涉及智能体在长时间窗口内执行，有时持续数小时，与工具和系统互动。当工作流随时间持续时，可靠性挑战加剧，这会影响状态和内存——这两个概念在AI讨论中常被混为一谈。

状态关乎工作流执行，包括智能体在流程中的位置、已完成的动作，以及故障后应从何处恢复。内存或上下文则捕获智能体在交互或任务间携带的信息。Somal解释道：“智能体的状态关乎其处于哪个步骤、已执行哪些动作，以及如果崩溃，应从何处恢复，这与上下文和内存部分不同。”

当企业开始超越简单的聊天机器人交互，转向更长的业务流程时，这种区别变得愈发重要。Somal以医疗领域的Abridge为例，其工作流处理医生问诊，涵盖多个阶段：音频处理、总结、模型调用和术后生成。

“这个流程不止一个环节。视频切片、生成摘要、调用LLM、生成术后总结，所有这些都由编排系统协调。”Somal说。

对企业的启示是，成功的智能体越来越依赖于能够抵御中断、协调跨服务并长期维持连续性的系统。

企业AI设计的一个有用框架是“确定性脊柱”，这也是Temporal对其角色的定位。

“它定义了你想要走的路径，调用‘大脑’，但如果大脑没有响应，会再次调用。如果大脑响应但下一步会失败，会从失败处继续。”Somal说。

在此框架中，语言模型作为概率系统产生可变输出，而编排软件围绕它维持执行可靠性。这一概念至关重要，因为即使模型保持非确定性，企业系统也越来越需要一致性。采购工作流、医疗总结、客户支持升级或合规流程不能因为模型调用超时或外部依赖崩溃而静默失败。

“你最关心的是确保能恢复，且如果出问题不会支付token费用。”Somal补充道。

随着企业领导者评估AI投资回报率，成本可见性成为日益增长的担忧。长期运行的智能体在复杂工作流中频繁进行多次模型调用，可能导致不透明的支出模式。Somal描述了编排的一个运营优势：可见性，即了解成本积累的位置。由于工作流是可观测的，团队能看到token在智能体过程中的消耗位置。

“你可以在一个视图中看到整个流程，能看到在多个步骤、调用多个系统的智能体中，token在哪里被消耗。”她说。

工作流恢复也影响成本效率。没有持久的编排，后期故障会迫使组织从头重新运行整个流程，包括之前的所有模型调用。Somal表示，设计围绕恢复的系统可以从中断点恢复执行。

“从崩溃处继续，我们帮你节省了从第一步重新运行智能体的成本。”她强调。

治理问题也是智能体AI普及后的另一个新兴模式。Somal表示，企业不再完全采用现成的智能体系统，而是越来越多地寻求标准化的内部框架，在提供护栏的同时保留灵活性，并实施必要的功能，如治理控制、模型选择策略、身份系统、成本管理和可观测性。

“企业正在构建这些 paved paths 。现成的方案可能行不通，因为还有这些其他需求。”她说。

随着组织重新审视第一代部署，这类挑战越来越不像模型问题，而更像系统工程问题。Temporal之所以能帮助企业迈出这一步，部分原因在于，在AI成为战略优先事项之前，它已作为更广泛的现代化项目的一部分存在于许多组织中。

“Temporal早已在企业中，将其扩展到AI和智能体平台感觉很自然。”Somal总结道。

关注微信号：智享开源 ，及时了解更新信息。

0 0