登录

微软发布ASSERT开源框架:让开发者更高效地评测AI智能体和应用行为


速读:微软今日宣布推出开源框架 ASSERT(Adaptive Spec-driven Scoring for Evaluation and Regression Testing。
2026年06月03日 03:1

IT之家 6 月 3 日消息,微软今日宣布推出开源框架 ASSERT(Adaptive Spec-driven Scoring for Evaluation and Regression Testing,自适应规范驱动评分),旨在将自然语言写成的行为规范直接转换为可执行的评估流程。

据介绍,ASSERT 能够从产品需求、政策文件或系统提示等文本出发,自动生成测试场景、数据集、评估指标和计分卡,并针对目标模型、应用或智能体运行测试。

该框架建立在这样一个前提之上:行为规范本身应当成为评估的核心输入,而非仅仅作为背景参考。ASSERT 将这一过程系统化为四个阶段:

为了验证 ASSERT 的有效性,微软团队开展了两项覆盖率研究和人工评审对比。

第一项覆盖率研究显示,相比直接从意图生成的评估集,ASSERT 在多项行为(IT之家注:如社会评分、拍马屁行为、任务遵循、工具使用规范、不安全健康建议)上生成的测试集覆盖更广,暴露出更多值得检查的案例,区分强弱系统的能力更强,同时显现出更多独特的失败模式。

第二项验证通过对比 LLM 判定器与人工审核,显示两者一致率通常在 80%–90%,而人工标注者之间一致率约为 90%,表明 LLM 判定器能够捕捉大部分目标信号,但在策略细微差别或高度专业领域仍需谨慎。

微软指出,ASSERT 最适用于行为定义明确、约束清晰的场景。丰富的工具、政策和边界描述有助于生成更精确的测试用例。开发者不应将汇总评分视为最终结论,更多情况下,收集的失败案例和操作轨迹对改进系统和评估方法更有价值。ASSERT 并不能替代人工判断、遥测数据或领域专家评审,而应将其作为使评估更快速、更明确和更易于迭代的一种方式。

关键词 :

开源框架 AI 微软 it之家 智能体

新浪众测

新浪众测

新浪科技公众号

新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

陌陌母公司挚文季报图解:营收24亿净利降19% 唐岩刚获派息超8000万

风口上的AI短剧人,如履薄冰

“不好看就退票”服务,能救电影院吗?

在英伟达的这场发布会上 老黄开始推销CPU了

华为nova 16系列支持5A速度!传输、流畅度领先友商17 Pro

大量青花瓷将重见天日 挪威深海发现载有中国瓷器的沉船

OpenAI现场演示无APP手机:所有界面实时生成 推理甩给云端GPT

一碗剩米饭吃进ICU!吃不对会危及生命

孙正义:AI才刚起步 体量有望达到互联网热潮50倍

小鹏发起离职竞业人员调查!已有前员工被诉索赔近千万

微信鸿蒙版 App 8.0.18.34 尝鲜版本更多资格放出,折叠屏 / 平板端分栏效果显示优化

阿维塔5月交付7336辆 创年内新高

阿迪达斯夹克文案“在城里办事”被玩梗 官方优化后 网友:那我以后去城里办事穿啥

智己LS8提车16天辅助驾驶模式下撞上石堆!车主:4S店让我认全责走保险

巴西19岁女子海边游玩时遭鲨鱼袭击:救上岸时已被咬断一条腿

全球唯一拥有全部工业门类国家!中国造船能力全球领先:产能是美国200倍

Arm兼容性解决了!黄仁勋承诺:RTX Spark处理器能运行所有Windows应用和游戏

零跑杀疯了 5月交付量81569台再创新高!中国新势力首次解锁8字头成就

比亚迪一打三碾压日系!中国产汽车首次拿下韩国第三

马斯克逃了 净利润腰斩的日系车却砸110亿美元拥抱印度 前路几何

炒作“乱伦梗”进行色情导流并诈骗,抖音封禁违规账号

可瞬间烤熟!发烧友花4个月DIY AI灭蚊激光炮:一夜之间把小区蚊子全消灭了

建仓特斯拉!段永平谈FSD:很好用 使用时我还睡着了40分钟

主题:微软