登录

看屏幕、用键鼠,我的OpenClaw「睁眼」了


速读:简单来说,就是让Agent“长出眼睛”,从此看得见屏幕、点得到按钮,甚至自主操作电脑。 “Agent的眼睛”听起来很像是某种普通的附加功能,但这一描述远远低估了Peekaboo的真实地位,它更重要的意义在于彻底打破了Agent只能被动应答的局限,将其拉入真实的桌面操作场景。 落地能力更为核心的考验是在任务流延伸至跨软件乃至跨系统的程度时,Peekaboo是否仍然能够实现全流程自主的桌面操作。 结果显示,Peekaboo自主操作电脑完成了长链路的复合任务。 在真实的桌面环境下,我们首先测试了其复杂连续操作能力。
2026年05月31日 16:08

雷峰网讯 2026 年 5 月 11 日,本地 AI 智能体框架 OpenClaw 正式上线了 macOS 专属桌面操控工具 Peekaboo,提供像素级截图、UI 元素识别、以及完整的 GUI 自动化能力。简单来说,就是让 Agent “长出眼睛”,从此看得见屏幕、点得到按钮,甚至自主操作电脑。

GUI 自动化或可以视为 OpenClaw 在 Computer Use 上的最后一块能力短板。此前的 Agent 交互模式尚停留在文本对话层面,虽然已经实现了高度自主的指令遵循和任务闭环能力,但图形操作界面仍然是人类的专属。 而 Peekaboo 的登场将 Agent 带进了下一个时代,只有能够“看见”,它们才算是成为了真正能够全权接管桌面的自主执行体。

那么对用户而言,这意味着什么样的体验革新?Peekaboo 又是如何让 AI 真正接管桌面?我们第一时间上手进行了实测。

01

接管桌面,OpenClaw 超进化

“Agent 的眼睛”听起来很像是某种普通的附加功能,但这一描述远远低估了 Peekaboo 的真实地位,它更重要的意义在于彻底打破了 Agent 只能被动应答的局限,将其拉入真实的桌面操作场景。

Peekaboo 搭载的像素级识别能力,能够自动精准标注屏幕上的按钮、输入框、弹窗、软件窗口等所有界面元素,且无需人工标记或提前适配。同时它可以完美模拟人类的操作逻辑,自主完成鼠标点击、文字输入、页面滚动、快捷键操控等全套键鼠行为。

更核心的优势在于无依赖通用性,Peekaboo 不依赖软件官方 API、无需嵌入 SDK 适配,这意味着所有桌面软件、网页平台都能直接兼容适配。 它在赛博世界留下的痕迹就像一个真正的人类用户那样,一切你能操作的对象,它都可以接手。

这已然提供了一种重构电脑操作底层逻辑的可能。而我们首先好奇的是,Peekaboo 到底是具备真实的落地能力,抑或只是噱头式的 Agent 玩具? 在真实的桌面环境下,我们首先测试了其复杂连续操作能力。

这是一项信息检索测试。我们要求 Peekaboo 打开 Safari 浏览器,自动关闭网页弹窗干扰,然后在顶部网址搜索框查找「AI近期 大事」,在下方一众搜出来的网站中,打开第一个网站,然后关闭网站。

整套流程全部由 OpenClaw 自主完成,任务内容虽然并不复杂,但实际操作覆盖了图标识别、按钮点击、弹窗检测、搜索框定位、内容输入等多 项能力。

特别是在同一个页面中执行输入内容、定位词条等任务时,从视频中可以看出,Peekaboo 自主完成了规避弹窗干扰、适配动态网页布局,这表明其能够稳定地识别复杂的软件界面。更关键的是,在连贯完成多步骤桌面操作时,Peekaboo 表现出的操作逻辑也非常贴合人类使用习惯。

到此为止,可以说 Peekaboo 绝非仅仅支持单点点击的演示型工具。当然,对于 GUI 自动化而言这还只是入门。 落地能力更为核心的考验是在任务流延伸至跨软件乃至跨系统的程度时,Peekaboo 是否仍然能够实现全流程自主的桌面操作。

第二项测试将信息检索延伸至成果交付阶段,要求 Peekaboo 在 Safari 浏览器中搜索百度热搜榜,依次提取热搜榜、电影榜、小说榜、电视剧榜前六名的数据,然后回到桌面新建 Excel 表格, 将此前采集到的四类榜单数据进行汇总。

结果显示,Peekaboo 自主操作电脑完成了长链路的复合任务。其中涉及到浏览器的部分在案例一中已有所展示,更值得关注的是其在浏览器、办公软件、系统桌面、文件夹、系统设置等多个操作平台之间的跳转,整套流程并未出现需要人工干预的卡顿。

这意味着 OpenClaw 和 Peekaboo 的结合已经具备了真实 的办公自动化能力,而 OpenClaw 的定位也正在从 AI 工具的调用者,转向下一代桌面环境操作底座。在 Agent 普遍以调用第三方工具为核心逻辑的背景下,Peekaboo 让 OpenClaw 成为了距离接管整个电脑最近的选手。

主题:自主|桌面操作