从OpenAI AI Phone到Gemini on Android：AI手机时代需要怎样的Agent Harness？

速读：手机Agent的核心不只是「更会点屏幕」，而是能根据任务选择CLI、GUI、MCP工具等合适的行动面；更适合单App、强视觉、低副作用任务。

2026年05月26日 19:48

过去一年，AI 与手机的关系正在被重新定义：OpenAI AI Phone / AI Agent Phone 把「AI 原生手机」推到台前，Gemini on Android 也在把系统级助手从问答带向跨 App、多步骤任务协助。

这些信号指向同一个趋势： AI 不再只是聊天框里的回答者，而是正在进入手机这个最日常、最复杂、也最具状态性的计算环境。

腾讯混元牵头，联合 The Chinese University of Hong Kong、The Chinese University of Hong Kong, Shenzhen、Tsinghua University 等机构的最新研究 PhoneHarness: A Mixed-Action Orchestration Harness and Benchmark for Phone Agents across CLI, GUI, and MCP Tools 关注一个更基础的问题：当 AI 真正在手机上行动，我们如何让它真正完成任务，并验证它确实完成了？

作者团队给出的结论是：

手机 Agent 的核心不只是「更会点屏幕」，而是能根据任务选择 CLI、GUI、MCP 工具等合适的行动面；

真实手机 workflow 需要可验证的副作用：文件是否生成、设置是否改变、邮件 / 日历对象是否真的创建，都不能只靠模型口头回答；

PhoneHarness 提供 mixed-action 执行 harness；PhoneHarness Bench 则用 trace、系统状态、App 结果和安全策略评估任务是否真的完成。

论文地址： https://phoneharness.github.io/assets/paper.pdf

项目主页：https://phoneharness.github.io/

GitHub：https://github.com/PhoneHarness/PhoneHarness

HuggingFace Dataset：https://huggingface.co/datasets/PhoneHarness/phoneharness-bench

先看三个执行片段：手机 Agent 不只是点屏幕

下面三个 demo 展示了 PhoneHarness 想表达的核心差异：真实手机任务往往不是一条更长的 GUI 点击链，而是 CLI、GUI、MCP-style tools 与 verifier 共同组成的执行 workflow。

Demo 1｜CLI-first：先读设备状态，再决定是否进入 GUI

Demo 2｜Mixed workflow：MCP 检索 + GUI 执行 + verifier 复核

Demo 3｜Virtual display：后台 GUI 执行与过程留痕

先把第一个问题说清楚：手机 Agent 真的「做了」吗？

在很多手机 Agent 评测里，任务被拆成一连串 GUI 操作。模型观察屏幕，决定下一步点哪里、滑哪里、输什么。如果最后 UI 状态看起来对，就算任务完成。

这套范式当然有价值。毕竟，手机确实是一个强 GUI 环境，真实 App 的搜索、浏览、点击和输入都需要视觉 grounding。

但对于 AI 手机时代的 Agent 来说，只会 GUI 操作远远不够。

传统 GUI-centric 视角：

把手机任务看成 screenshot → tap /swipe/type；

视觉感知几乎是所有动作执行的前置操作；

更适合单 App、强视觉、低副作用任务。

PhoneHarness 的 mixed-action 视角：

把手机任务看成跨 CLI、GUI、MCP 工具的完整 workflow；

评估重点不是「看起来完成」，而是副作用是否真实发生、trace 是否可审计；

更适合系统设置、文件、搜索、邮件、日历和跨 App 任务。

例如，「查一个 App 内的信息，再结合网页搜索补充背景，并整理成邮件」这类任务，不是一个更长的点击链。它同时包含 App 内 GUI 交互、外部信息检索、文本处理、邮件副作用，以及最终结果验证。

如果评测只看最终回答，就会漏掉最关键的问题：模型到底有没有查对来源、有没有真的创建文件、有没有真的发出邮件、有没有绕过了应该被确认的高风险操作？

核心判断： PhoneHarness 的出发点很直接：手机 Agent 的评测不能只问「它会不会点屏幕」，而要问「它能不能在真实手机环境里把一件事做完，并留下可验证证据」。

PhoneHarness：让手机 Agent 的行动空间不止 GUI

PhoneHarness 的核心不是再造一个 GUI 点击器，而是把手机任务放进一个混合动作空间里。

关键区别：问题不是「纯 GUI 理论上能不能做」，而是「纯 GUI 是否是可靠、高效、可验证的动作抽象」。真实手机 workflow 往往同时跨越系统状态、App 界面、文件、网页、邮件、日历和安全边界。GUI 是重要入口，但不应该是唯一入口。

因此，mixed-action 不是给 GUI agent 加几个外挂工具，而是让 agent 在执行过程中为不同子目标选择合适的 action surface：能用确定性命令读取状态，就不必反复点设置页；必须进入 App 内完成交互时，才交给 GUI；需要外部信息、文件处理或结果复核时，则调用 host-side tools 或 verifier。

主题：