从智能体到赛博员工,生产力智能涌现
机器之心发布
最近一两年,AI 行业有一个很微妙的变化:大家不再满足于问 “模型会不会回答”,也不再只关心 “Agent 能不能调用工具”。越来越多的讨论开始回到一个更终极的问题: AI 到底 能不能完全自动 化接管工作区,理解个性化需求,像一个真实的人类劳动力一样,把一件事情从头到尾做完?
这个问题并不新。过去,每一轮模型升级都会带来一批令人惊艳的 Demo:写代码、做 PPT、总结文档、整理会议纪要,甚至在浏览器中代替人完成流程。然而,一旦将其放入真实的个人或企业工作流中,差距很快显现出来:Demo 中的 AI 像一个聪明的助手,真实工作中的 AI 却常常像一个健忘、不了解组织上下文的新同事。以图中的案例为例,许多 Agent 表面上能够 “完成表格”,但实际结果中仍存在结构错误、统计偏差、关键字段缺失等问题。
相关链接:https://huggingface.co/Workspace-Bench 我们在分析飞书内部 100+ 个真实案例后发现,当前 Agent 已经进入大量工作流,但大多数仍停留在 “行动层”,比如写一段话、打开一些文件。它们可以执行任务,却难以理解任务背后的真实工作世界。其中一个关键挑战是,当一个任务背后有一整套长期积累的工作空间时,AI 能不能知道该看什么、信什么、忽略什么,以及最后如何把这些材料组织成一个可交付的结果。
这也是我们在实践中越来越强烈感受到的转折: Agent 的下一站,不只是更强的模型,也不只是更强的 Agent Harnes s,而是生产力智能。
需求:从 “演示干活” 到 “进入岗位”
想象一个很普通的工作场景。你刚加入一个团队,老板对你说:“帮我整理一份明年全球产品策略报告。”
如果这是一个传统 AI 任务,用户可能会把三份材料上传给模型,并明确告诉它:“请基于这三份文件写一份报告。” 这时,AI 需要做的事情相对清楚:读取文件、抽取要点、生成文本。
但真实工作不是这样发生的。真实情况往往是,你面对的是一个团队多年沉淀下来的工作站:旧版方案、最终版方案、会议纪要、表格数据、客户反馈、邮件导出、PPT 草稿、竞品分析、临时截图、历史复盘,全都散落在不同目录、不同命名规则和不同版本里。更麻烦的是,很多关键关系并不会写在文件名里。某个图表可能来自三个月前的 Excel,某个结论可能来自一次没有归档好的会议,某个 “最终版” 旁边还躺着一个其实更新的 “final_v3”。
从这个角度看,我们真正需要的不是一个 “万能聊天机器人”,也不是一个能把工具链串起来的自动化脚本,而是一种新的生产力单位:它要拥有自己的工作站,理解岗位职责,能够面对任务目标自主探索、持续学习,并以可验证的方式交付结果。我们把这种形态称为 赛 博 员工 。
这就是 Workspace-Bench 试图揭示的问题。它不是为了再造一个 “谁分数更高” 的榜单,而是把 AI Agent 放回真实员工的办公环境中,测试它们是否具备一种更接近生产现场的能力: Workspa ce Learning,工作空间学习 。
工作空间学习,指的是 AI Agent 能够在复杂工作空间中识别、推理、利用并更新异构文件之间显性与隐性的依赖关系,从而完成日常和进阶工作任务的能力。