微软推出ASSERT:AI行为测试新工具

微软推出ASSERT:AI行为测试新工具

AI评估新工具问世

近年来,人工智能研究人员和实验室在评估AI模型方面取得了显著进步,评估范围涵盖了从安全合规到阿谀奉承和模型对齐等多个维度。然而,企业和开发者们如今面临着一项更具体的需求:确保他们的AI系统在其特定产品或服务中能够按照预期运行。

ASSERT框架简介

为简化这一测试过程,微软于周二正式发布了ASSERT(全称为Adaptive Spec-driven Scoring for Evaluation and Regression Testing)。这款开源框架通过利用人工智能技术,将高级别的目标、政策或预期行为自然语言描述,转化为全面、可评分的测试方案,使评估特定应用场景的AI行为变得轻而易举。

工作原理

ASSERT的工作流程包括以下几个关键步骤:

  • 接收对AI模型预期行为和政策的自然语言描述
  • 将这些描述转化为可接受和不可接受行为的结构化集合
  • 生成问题场景和测试案例
  • 针对目标系统运行测试
  • 对结果进行评分
  • 记录AI系统采取的路径,包括中间动作和工具调用

开发者还可以提供系统上下文、工具和约束条件,进一步定制评估内容,以满足特定需求。

实际应用场景

以文档研究智能体为例,开发者可以设定以下规则:禁止向公司外部人员发送电子邮件,将机密信息限制仅限C级高管访问,并在提供摘要时考虑先前的上下文。ASSERT将基于这些规则生成持续测试案例,验证系统是否遵循这些规定。

填补行业空白

据微软介绍,ASSERT框架填补了通用评估工具无法覆盖的空白,特别是在AI模型需要根据应用或产品的特定上下文、政策和工具进行调整行为的情况下。

“我们学到的一点是,评估对于做出正确决策至关重要,”微软负责任AI首席产品官Sarah Bird表示。”因为如果不理解AI系统的行为,就很难判断它是否达到了组织设定的标准…我们发现,要真正构建值得信赖的系统,应该评估更多与应用场景相关的维度。”

灵活的应用阶段

Bird强调,ASSERT不仅可用于系统构建阶段的评估,也可用于部署后测试,甚至支持持续监控,为AI系统的全生命周期管理提供支持。

行业背景

此次发布正值AI行业逐渐但全面转型的时期。随着模型能力不断增强,研究人员正日益关注可重复测试和回归检查,斯坦福大学的HELM、MLCommons的AILuminate以及METR等评估组织相继推出基准测试,以衡量模型在不同条件下的表现。


关注微信号:智享开源 ,及时了解更新信息。

原文链接:https://techcrunch.com/2026/06/02/new-microsoft-tool-lets-devs-spin-up-ai-behavior-tests-using-text-descriptions/

评论列表
 
 
发表评论
😀 😂 😃 😄 😅 😆 😉 😊 😋 😎 😍 😘 🥰 😜 😝 🤗 🤔 😭 😤 👍

为你推荐
Ta的个人站点

Mark Do发布文章1404篇


关注微信

分类