微软推出ASSERT：AI行为测试新工具

AI评估新工具问世

近年来，人工智能研究人员和实验室在评估AI模型方面取得了显著进步，评估范围涵盖了从安全合规到阿谀奉承和模型对齐等多个维度。然而，企业和开发者们如今面临着一项更具体的需求：确保他们的AI系统在其特定产品或服务中能够按照预期运行。

ASSERT框架简介

为简化这一测试过程，微软于周二正式发布了ASSERT（全称为Adaptive Spec-driven Scoring for Evaluation and Regression Testing）。这款开源框架通过利用人工智能技术，将高级别的目标、政策或预期行为自然语言描述，转化为全面、可评分的测试方案，使评估特定应用场景的AI行为变得轻而易举。

工作原理

ASSERT的工作流程包括以下几个关键步骤：

接收对AI模型预期行为和政策的自然语言描述
将这些描述转化为可接受和不可接受行为的结构化集合
生成问题场景和测试案例
针对目标系统运行测试
对结果进行评分
记录AI系统采取的路径，包括中间动作和工具调用

开发者还可以提供系统上下文、工具和约束条件，进一步定制评估内容，以满足特定需求。

实际应用场景

以文档研究智能体为例，开发者可以设定以下规则：禁止向公司外部人员发送电子邮件，将机密信息限制仅限C级高管访问，并在提供摘要时考虑先前的上下文。ASSERT将基于这些规则生成持续测试案例，验证系统是否遵循这些规定。

填补行业空白

据微软介绍，ASSERT框架填补了通用评估工具无法覆盖的空白，特别是在AI模型需要根据应用或产品的特定上下文、政策和工具进行调整行为的情况下。

“我们学到的一点是，评估对于做出正确决策至关重要，”微软负责任AI首席产品官Sarah Bird表示。”因为如果不理解AI系统的行为，就很难判断它是否达到了组织设定的标准…我们发现，要真正构建值得信赖的系统，应该评估更多与应用场景相关的维度。”

灵活的应用阶段

Bird强调，ASSERT不仅可用于系统构建阶段的评估，也可用于部署后测试，甚至支持持续监控，为AI系统的全生命周期管理提供支持。

行业背景

此次发布正值AI行业逐渐但全面转型的时期。随着模型能力不断增强，研究人员正日益关注可重复测试和回归检查，斯坦福大学的HELM、MLCommons的AILuminate以及METR等评估组织相继推出基准测试，以衡量模型在不同条件下的表现。

关注微信号：智享开源 ，及时了解更新信息。

原文链接：https://techcrunch.com/2026/06/02/new-microsoft-tool-lets-devs-spin-up-ai-behavior-tests-using-text-descriptions/

0 0

微软推出ASSERT：AI行为测试新工具

AI评估新工具问世

ASSERT框架简介

工作原理

实际应用场景

填补行业空白

灵活的应用阶段

行业背景

评论列表

发表评论

为你推荐

近期文章

标签

近期评论

分类

热门文章