Patronus获五千万融资,构建数字世界测试AI智能体
AI智能体测试迎来新突破
随着技术的飞速发展,AI智能体已从简单的问答工具,演变为能够自主执行多步骤复杂任务的先进系统。然而,要让这些智能体被信任执行预订旅行或进行财务分析等关键任务,模型开发者和相关企业必须确保它们能在各种场景下稳定可靠地运行。
传统测试方法的局限性
AI实验室通常使用基准测试来展示其模型的能力,但即使是针对智能体的基准测试获得高分,也并不能真正证明AI能够正确处理各种复杂的真实世界任务。这种局限性促使了新测试方法的诞生。
Patronus AI的创新解决方案
由前Meta AI研究人员Anand Kannappan和Rebecca Qian于2023年创立的Patronus AI,正通过构建模拟数字环境来帮助模型开发者和企业优化其模型,以评估智能体的实际表现。这家位于旧金山的初创公司显然解决了行业中的一个关键问题。
Notable Capital的常务董事Glenn Solomon表示,几乎所有前沿AI实验室和许多新兴初创公司现在都是Patronus的客户,对该公司的模拟环境需求几乎可以说是无限的。
投资者青睐的潜力股
Patronus的业绩表现令人瞩目,过去一年营收增长了15倍,这引起了投资者的极大兴趣。该公司近日宣布获得5000万美元的B轮融资,由Greenfield Partners领投,Notable Capital、Lightspeed、Datadog和Samsung等机构也参与了本轮投资。至此,Patronus的总融资额已达7000万美元。
数字世界模型测试法
Patronus采用其所谓的”数字世界模型”,创建网站和内部系统的虚拟副本。在这些环境中,智能体在经过强化学习训练后会被进行压力测试,这种学习方法通过迭代奖励任务完成成功和惩罚错误来不断优化智能体表现。
模拟测试的独特价值
AI实验室高度重视这些数字模拟,因为它们为智能体提供了尝试各种不同、甚至不可预测场景的机会。Patronus将其方法与Waymo训练自动驾驶汽车的方式相类比——后者首先构建合成世界来测试车辆应对罕见危险(如恶劣天气或儿童追球)的能力。
然而,与自动驾驶汽车不同,AI智能体往往倾向于走捷径,导致无法正确完成任务。Solomon指出:”Patronus非常擅长发现这些’捷径’,并确保模型承担责任。”
未来发展方向
目前,Patronus主要为软件工程和金融领域提供模拟数字世界,但Kannappan表示这只是开始。他强调:”我们现在非常专注于可验证的问题,即那些可以立即检查和验证的问题,但还有大量非常难以验证或根本无法验证的领域。”
即使这些过程是可验证的,也不意味着它们很简单。Kannappan补充道:”我们希望能够创建这样的环境,让智能体可以在其中运行10小时、10天甚至10周。”
市场竞争态势
关于竞争对手,Patronus认为其主要竞争者是AI实验室内部已建立的用于评估智能体行为的团队。虽然像Mercor和Surge这样的人工数据公司帮助模型开发者进行强化学习,但Patronus的独特之处在于它通过无人干预的方式评估智能体的行为表现。
关注微信号:智享开源,及时了解更新信息。


关注微信

还没有任何评论,你来说两句吧!