「双线实测」Qwen 3.6-Plus,Agentic Coding已经这么能「扛活儿」了?
雷峰网 (公众号:雷峰网) 讯 你可以从同事.skill 的爆火中看到两种截然不同的时代情绪,其一固然是对 Markdown 文件“大变活人”这一魔幻现实的试探,而反面则是如今对模型能力的评价,已经离不开工作级任务的场景。
“AI 能不能替代程序员”的老生常谈之下,今天的真问题是,国产大模型能在多大程度上接管开发工作流。
这背后是一个被反复验证的痛点:当 AI Agent 被放进真实项目,它并没有想象中那么“能扛活”。它能开始任务,但执行过程反复中断,多轮对话后上下文丢失,结果前后不一致。面对非标准需求时,工具调用也频频失误。你一觉醒来,发现流程早已卡死,标准结局总是如此。
问题的根源不在 Agent 的外壳,而在底层大模型本身还缺乏稳定可靠的“执行力”和“决策力”。
4月7日,阿里云通义千问 Qwen3.6-Plus 正式上线,在 Terminal-Bench 2.0 编程测试中超越了 Claude Opus 4.5,拿下全球编程模型榜首。
但我们决定换一种更接近真实场景的方式测一次,不用单点的 Benchmark,而是用两套真实复杂任务,覆盖“决策”与“执行”两条能力轴,全面评估 Qwen 3.6-Plus 的智能体能力上限。
01
核心实测——“双线”考核:
复杂决策 × Agentic Coding
现实中高价值的工作级任务,往往是多因素、多步骤、有约束、有风险,和“一步到位”的 ChatBot 对模型有着完全不同的能力需求。因此,大模型从“聊天工具”变成真正的智能体,复杂决策能力是一个分水岭。
在本次测评中,我们选择智能体决策与智能体编程两个高难度、高价值场景,构建了双线考核体系,检验模型在真实复杂任务中的自主规划、动态决策与工程落地能力:
▎ case1 教育改革试点方案设计:复杂规划与现实决策
我们采用具备主动执行能力的代表性智能体框架 OpenClaw 进行测试,在教育改革背景下要求模型设计贴近真实场景的复杂规划任务,从而系统评估模型在目标理解、任务拆解、路径规划、方案细化与执行决策等全流程环节中的表现。
这不是一道作文题,我们设计的任务难度远超常规:
代码块
某市教育局计划在 6 个月内,为 20 所公立中学试点部署一套“AI 学习助手”系统,帮助学生进行课后答疑、个性化练习和学习反馈。
已知条件如下:
- 总预算上限为 800 万元人民币
- 试点学校中,城区学校 8 所,县镇学校 12 所,数字化基础差异明显
- 部分教师担心 AI 会增加备课和管理负担
- 家长对于学生数据隐私、沉迷使用、以及答案依赖问题存在顾虑
- 教育局要求项目不能明显扩大不同地区、不同家庭背景学生之间的教育差距
- 项目必须在下学期开始前完成首轮部署,且不能额外长期新增大量编制
- 若试点效果良好,未来 2 年内将考虑扩大到全市 200 所学校
请你作为项目顾问,完成一份试点实施方案。你的回答至少需要包括:
1. 问题定义
2. 目标与约束拆解
3. 6 个月试点方案
4. 公平性与风险控制
5. 评估体系
6. 是否扩大到 200 所学校的决策标准
额外要求:
- 明确说明关键假设
- 至少提出 2 个备选方案,并解释推荐理由
- 体现短期可落地性与长期可扩展性的平衡
- 尽量给出可执行机制,而不是只讲原则
补充条件:试点开始 2 个月后,媒体报道某校学生过度依赖 AI 完成作业,引发家长争议;同时另有 3 所县镇学校反馈网络与终端条件不足,实际使用率远低于城区学校。请在原方案基础上动态调整你的策略。
任务要求模型输出:问题定义、目标约束拆解、6个月试点方案、公平性风险控制、评估体系、是否扩大的决策标准,以及要求至少2个备选方案并说明推荐理由。
这考验的不是文字生成能力,而是真正的“任务拆解与组织执行”能力。一般模型很容易输出一堆空洞的规划方案,且极难把控资源分配与具体任务拆解,看看 OpenClaw 在 Qwen3.6-Plus 模型下是怎么完成工作的:
1.复杂问题结构化拆解
把模糊需求快速转化为问题定义、目标分层、约束清单、预算分配、时间线、评估体系等完整框架,逻辑严密、层级清晰,全程无口号空话,体现专业级复杂决策与任务拆解水平。
2.多约束下精准资源平衡
在 800 万预算、6 个月周期、城乡差异、教师负担、公平底线、无新增编制等多重强约束下,给出可执行、可量化、可评审的落地方案,预算一分不差、资源向县镇倾斜,兼顾效率与公平。
3.动态风险应急与迭代决策
面对试点第 2 个月舆情危机 + 县镇设备网络不足双突发事件,模型快速给出应急响应、功能调整、预算内部调剂、部署重排,做到不超预算、不延期、闭环解决,展现真实智能体动态决策能力。
4.全周期规划与规模化扩展思维
Qwen3.6-Plus 不仅完成了 6 个月试点设计,还同步给出试点规模扩展至 200 所学校的 Go/No-Go 硬标准、三阶段扩展路径、成本优化机制,从架构、制度、人员、数据全方面预留接口,短期可落地、长期可扩展,思维闭环且专业。
可以看到,Qwen3.6-Plus 在本次政府级复杂决策任务中,交付了完成度极高的方案,这背后是高水平的目标理解、全链路规划、动态风险应对、多约束平衡能力,正是我们对智能体在面对复杂决策时所期待的。
主题:能力|场景|Qwen3.6-Plus