从智能体到赛博员工，生产力智能涌现

速读：然而，一旦将其放入真实的个人或企业工作流中，差距很快显现出来：Demo中的AI像一个聪明的助手，真实工作中的AI却常常像一个健忘、不了解组织上下文的新同事。

2026年05月15日 17:36

机器之心发布

最近一两年，AI 行业有一个很微妙的变化：大家不再满足于问 “模型会不会回答”，也不再只关心 “Agent 能不能调用工具”。越来越多的讨论开始回到一个更终极的问题： AI 到底能不能完全自动化接管工作区，理解个性化需求，像一个真实的人类劳动力一样，把一件事情从头到尾做完？

这个问题并不新。过去，每一轮模型升级都会带来一批令人惊艳的 Demo：写代码、做 PPT、总结文档、整理会议纪要，甚至在浏览器中代替人完成流程。然而，一旦将其放入真实的个人或企业工作流中，差距很快显现出来：Demo 中的 AI 像一个聪明的助手，真实工作中的 AI 却常常像一个健忘、不了解组织上下文的新同事。以图中的案例为例，许多 Agent 表面上能够 “完成表格”，但实际结果中仍存在结构错误、统计偏差、关键字段缺失等问题。

相关链接：https://huggingface.co/Workspace-Bench 我们在分析飞书内部 100+ 个真实案例后发现，当前 Agent 已经进入大量工作流，但大多数仍停留在 “行动层”，比如写一段话、打开一些文件。它们可以执行任务，却难以理解任务背后的真实工作世界。其中一个关键挑战是，当一个任务背后有一整套长期积累的工作空间时，AI 能不能知道该看什么、信什么、忽略什么，以及最后如何把这些材料组织成一个可交付的结果。

这也是我们在实践中越来越强烈感受到的转折： Agent 的下一站，不只是更强的模型，也不只是更强的 Agent Harnes s，而是生产力智能。

需求：从 “演示干活” 到 “进入岗位”

想象一个很普通的工作场景。你刚加入一个团队，老板对你说：“帮我整理一份明年全球产品策略报告。”

如果这是一个传统 AI 任务，用户可能会把三份材料上传给模型，并明确告诉它：“请基于这三份文件写一份报告。” 这时，AI 需要做的事情相对清楚：读取文件、抽取要点、生成文本。

但真实工作不是这样发生的。真实情况往往是，你面对的是一个团队多年沉淀下来的工作站：旧版方案、最终版方案、会议纪要、表格数据、客户反馈、邮件导出、PPT 草稿、竞品分析、临时截图、历史复盘，全都散落在不同目录、不同命名规则和不同版本里。更麻烦的是，很多关键关系并不会写在文件名里。某个图表可能来自三个月前的 Excel，某个结论可能来自一次没有归档好的会议，某个 “最终版” 旁边还躺着一个其实更新的 “final_v3”。

从这个角度看，我们真正需要的不是一个 “万能聊天机器人”，也不是一个能把工具链串起来的自动化脚本，而是一种新的生产力单位：它要拥有自己的工作站，理解岗位职责，能够面对任务目标自主探索、持续学习，并以可验证的方式交付结果。我们把这种形态称为赛博员工。

这就是 Workspace-Bench 试图揭示的问题。它不是为了再造一个 “谁分数更高” 的榜单，而是把 AI Agent 放回真实员工的办公环境中，测试它们是否具备一种更接近生产现场的能力： Workspa ce Learning，工作空间学习。

工作空间学习，指的是 AI Agent 能够在复杂工作空间中识别、推理、利用并更新异构文件之间显性与隐性的依赖关系，从而完成日常和进阶工作任务的能力。

主题：工作空间学习|生产力智能