登录

「双线实测」Qwen 3.6-Plus,Agentic Coding已经这么能「扛活儿」了?


速读:我们采用具备主动执行能力的代表性智能体框架OpenClaw进行测试,在教育改革背景下要求模型设计贴近真实场景的复杂规划任务,从而系统评估模型在目标理解、任务拆解、路径规划、方案细化与执行决策等全流程环节中的表现。 这考验的不是文字生成能力,而是真正的“任务拆解与组织执行”能力。 skill的爆火中看到两种截然不同的时代情绪,其一固然是对Markdown文件“大变活人”这一魔幻现实的试探,而反面则是如今对模型能力的评价,已经离不开工作级任务的场景。 但我们决定换一种更接近真实场景的方式测一次,不用单点的Benchmark,而是用两套真实复杂任务,覆盖“决策”与“执行”两条能力轴,全面评估Qwen3.6-Plus的智能体能力上限。 ▎case1教育改革试点方案设计:复杂规划与现实决策。
2026年05月11日 11:44

雷峰网 (公众号:雷峰网) 讯 你可以从同事.skill 的爆火中看到两种截然不同的时代情绪,其一固然是对 Markdown 文件“大变活人”这一魔幻现实的试探,而反面则是如今对模型能力的评价,已经离不开工作级任务的场景。

“AI 能不能替代程序员”的老生常谈之下,今天的真问题是,国产大模型能在多大程度上接管开发工作流。

这背后是一个被反复验证的痛点:当 AI Agent 被放进真实项目,它并没有想象中那么“能扛活”。它能开始任务,但执行过程反复中断,多轮对话后上下文丢失,结果前后不一致。面对非标准需求时,工具调用也频频失误。你一觉醒来,发现流程早已卡死,标准结局总是如此。

问题的根源不在 Agent 的外壳,而在底层大模型本身还缺乏稳定可靠的“执行力”和“决策力”。

4月7日,阿里云通义千问 Qwen3.6-Plus 正式上线,在 Terminal-Bench 2.0 编程测试中超越了 Claude Opus 4.5,拿下全球编程模型榜首。

但我们决定换一种更接近真实场景的方式测一次,不用单点的 Benchmark,而是用两套真实复杂任务,覆盖“决策”与“执行”两条能力轴,全面评估 Qwen 3.6-Plus 的智能体能力上限。

01

核心实测——“双线”考核:

复杂决策 × Agentic Coding

现实中高价值的工作级任务,往往是多因素、多步骤、有约束、有风险,和“一步到位”的 ChatBot 对模型有着完全不同的能力需求。因此,大模型从“聊天工具”变成真正的智能体,复杂决策能力是一个分水岭。

在本次测评中,我们选择智能体决策与智能体编程两个高难度、高价值场景,构建了双线考核体系,检验模型在真实复杂任务中的自主规划、动态决策与工程落地能力:

▎ case1 教育改革试点方案设计:复杂规划与现实决策

我们采用具备主动执行能力的代表性智能体框架 OpenClaw 进行测试,在教育改革背景下要求模型设计贴近真实场景的复杂规划任务,从而系统评估模型在目标理解、任务拆解、路径规划、方案细化与执行决策等全流程环节中的表现。

这不是一道作文题,我们设计的任务难度远超常规:

代码块

某市教育局计划在 6 个月内,为 20 所公立中学试点部署一套“AI 学习助手”系统,帮助学生进行课后答疑、个性化练习和学习反馈。

已知条件如下:

- 总预算上限为 800 万元人民币

- 试点学校中,城区学校 8 所,县镇学校 12 所,数字化基础差异明显

- 部分教师担心 AI 会增加备课和管理负担

- 家长对于学生数据隐私、沉迷使用、以及答案依赖问题存在顾虑

- 教育局要求项目不能明显扩大不同地区、不同家庭背景学生之间的教育差距

- 项目必须在下学期开始前完成首轮部署,且不能额外长期新增大量编制

- 若试点效果良好,未来 2 年内将考虑扩大到全市 200 所学校

请你作为项目顾问,完成一份试点实施方案。你的回答至少需要包括:

1. 问题定义

2. 目标与约束拆解

3. 6 个月试点方案

4. 公平性与风险控制

5. 评估体系

6. 是否扩大到 200 所学校的决策标准

额外要求:

- 明确说明关键假设

- 至少提出 2 个备选方案,并解释推荐理由

- 体现短期可落地性与长期可扩展性的平衡

- 尽量给出可执行机制,而不是只讲原则

补充条件:试点开始 2 个月后,媒体报道某校学生过度依赖 AI 完成作业,引发家长争议;同时另有 3 所县镇学校反馈网络与终端条件不足,实际使用率远低于城区学校。请在原方案基础上动态调整你的策略。

任务要求模型输出:问题定义、目标约束拆解、6个月试点方案、公平性风险控制、评估体系、是否扩大的决策标准,以及要求至少2个备选方案并说明推荐理由。

这考验的不是文字生成能力,而是真正的“任务拆解与组织执行”能力。一般模型很容易输出一堆空洞的规划方案,且极难把控资源分配与具体任务拆解,看看 OpenClaw 在 Qwen3.6-Plus 模型下是怎么完成工作的:

1.复杂问题结构化拆解

把模糊需求快速转化为问题定义、目标分层、约束清单、预算分配、时间线、评估体系等完整框架,逻辑严密、层级清晰,全程无口号空话,体现专业级复杂决策与任务拆解水平。

2.多约束下精准资源平衡

在 800 万预算、6 个月周期、城乡差异、教师负担、公平底线、无新增编制等多重强约束下,给出可执行、可量化、可评审的落地方案,预算一分不差、资源向县镇倾斜,兼顾效率与公平。

3.动态风险应急与迭代决策

面对试点第 2 个月舆情危机 + 县镇设备网络不足双突发事件,模型快速给出应急响应、功能调整、预算内部调剂、部署重排,做到不超预算、不延期、闭环解决,展现真实智能体动态决策能力。

4.全周期规划与规模化扩展思维

Qwen3.6-Plus 不仅完成了 6 个月试点设计,还同步给出试点规模扩展至 200 所学校的 Go/No-Go 硬标准、三阶段扩展路径、成本优化机制,从架构、制度、人员、数据全方面预留接口,短期可落地、长期可扩展,思维闭环且专业。

可以看到,Qwen3.6-Plus 在本次政府级复杂决策任务中,交付了完成度极高的方案,这背后是高水平的目标理解、全链路规划、动态风险应对、多约束平衡能力,正是我们对智能体在面对复杂决策时所期待的。

主题:能力|场景|Qwen3.6-Plus