灵活AI战略:短期合约,零锁定,效益倍增

面向未来的灵活AI策略
企业AI团队面临一个两难困境:当前最佳模型可能在一年后就不是最优选择了。MassMutual的解决方案是停止进行长期押注,而是构建能够随市场变化而灵活更换模型的基础设施。
“当今的AI世界极其动态,”MassMutual首席信息官Sears Merritt在最新的VB Beyond the Pilot播客中解释道,”我们希望确保自己能够驾驭这种动态浪潮。”
这一战略似乎取得了显著成效。MassMutual已测得开发者生产力提升约30%,而AI驱动的呼叫中心工作流程将问题解决时间从10分钟缩短至1分钟,并将成本从美元级别降至美分级别。
然而,对IT领导者而言,更广泛的启示可能不在于结果本身,而在于该公司如何精心构建其AI基础设施,并将用户置于中心位置。
为明天的可能性保持选择灵活性
MassMutual与前沿供应商合作,但将合作关系设定了时间限制。”这些关系有期限限制,以便我们在该领域成熟并最终稳定下来时,能够保持对最佳工具的选择权,”Merritt表示。
这一理念也延伸至开源模型。Merritt表示他的团队”百分之百”正在关注开源工具,并认为这项技术将在MassMutual(及类似公司)如何使用AI方面发挥重要作用。
“我们当然需要前沿模型和领先能力来完成今天不可能、明天却可能实现的任务,”他说道。
从一开始衡量成果
MassMutual的AI工作分为两大类。
第一类侧重于赋能:将Copilot和虚拟助手等提高生产力的工具提供给所有员工使用。第二类则是Merritt所描述的”深化与聚焦”举措,团队针对对顾问、保单持有人或员工有重大影响的特定工作流程或业务流程。
这些项目并不专注于采用指标,而是从预定义的成功标准开始。”我们做的每件事都有衡量指标,”Merritt表示,”我们总会预先定义一个成功标准,以确定我们是否会扩大这些项目的规模。”
同时,MassMutual也刻意鼓励实验,让员工接触各种一流模型、”消耗令牌的工作流”及其他潜在能力,以便他们能够评估这些工具与”更简单、成本更低”的大型语言模型(LLM)相比的优势。
与此同时,MassMutual正在收集围绕使用模式、开发者工作流、模型性能和成本的日益详细的分析数据。目标是减少支出,同时构建运营智能,最终根据成本、响应质量和用户体验将工作负载路由到合适的模型。
这些见解将最终驱动关于模型路由、提示选择、响应时间和基础设施设计的优化决策。
“我们正在获取分析数据,使我们能够非常细致地查看使用模式、开发者工作流,并开始理解谁在何时使用什么工具,以及用于何种类型的任务,”Merritt说道。
为何MassMutual有时会选择更昂贵的模型
MassMutual方法的另一个有趣之处在于它如何评估AI质量。公司并未完全专注于基准测试或令牌成本,而是采用了Merritt所谓的”信任评分”框架。
该过程结合了用户反馈和运营指标,以了解员工如何看待AI生成的响应,以及这些响应是否真正改善了结果。
呼叫中心重建项目对该框架进行了测试。开发过程中,员工可以访问两种不同的LLM。一种模型几乎实时生成响应,但质量较杂乱;另一种更昂贵的选项需要几秒钟额外响应时间,但 consistently 提供更高质量的答案。
传统观念和业务速度可能表明用户会偏好前者,但他们 overwhelmingly 选择了质量。Merritt的团队询问了用户对响应质量、首选模型以及整体体验的看法。
大多数时候,用户表示:”我们想要更贵的那个。我们愿意等待,但质量差异如此之大,以至于额外的两秒实际上对我们来说是值得的。”
这一反馈最终决定了MassMutual部署的模型。
“我们将这一体验因素纳入了决策过程,这使我们在相对成本方面认为这些差异微不足道,因此我们将使用更复杂的模型,”Merritt说道。
收听完整播客,了解更多关于:
- 为何Mythos”彻底改变了”网络安全格局——不是威胁类型,而是威胁出现的速度;
- 一个AI工程师团队如何在7天内现代化MassMutual的主机系统(这一过程以前需要3个月);
- 为何MassMutual特别避免了令牌最大化策略以控制AI使用和支出,并采用”无限使用”模式以防止成本爆炸;
- “多环境架构”将如何支持智能体AI。
您也可以在Spotify、Apple或您获取播客的任何地方收听并订阅Beyond the Pilot。
关注微信号:智享开源 ,及时了解更新信息。

关注微信

还没有任何评论,你来说两句吧!