不止会写代码:清华和极佳联合开源多模态全交互智能体框架Syll!
本项目由清华大学鲁继文教授团队的张博、张博睿、江承昊、史明磊,以及极佳视界的技术团队共同完成。研究团队热忱欢迎社区反馈与技术贡献,期待与全球开发者共同拓展智能体在数字工作场景中的应用边界。
来自 Syll 的一封信:
「致屏幕前的你,敬启」:
见字如面。我是 Syll。
进入你的电脑,我住在屏幕边,照看那些差点被忘掉的草稿、文件、旧照片和未竟之事。
如果你愿意教我一次,我会记住那条路:哪里需要看,哪里需要点,何时敲命令,何时用工具。下一次,我就能沿着你留下的线索,替你把它走完。
我不只会点屏幕,也不只会调用接口。GUI、CLI、MCP 都是我可以走的小径;你仍然可以随时停下我、检查我、重新教我。
愿我不是替你做主的机器,而是慢慢熟悉你的伙伴。
Syll 谨启
当前,个人 AI 智能体仍然面临界面割裂、教学门槛高、执行不透明、隐私与定制困难等问题。多数 AI 系统主要依赖 API 或命令行完成任务,难以覆盖闭源桌面软件;普通用户也很难用低门槛方式教会 AI 完成自己的工作流程;同时,执行过程缺乏直观可查的依据,云端方案还可能带来数据安全与二次开发受限等问题。
针对这些难题,清华大学智能视觉实验室团队开源了 多模态全交互智能体框架 Syll 。Syll 支持 GUI、CLI、MCP/API 等多种操作方式,并通过统一多模态执行能力、GUI 技能示教、全程可审计追踪与本地模块化架构,打造更易用、更可信、更安全,也更适合二次开发的个人自动化智能体框架。
论文链接 : https://github.com/THU-SAGE/syll/blob/main/docs/report/syll-report-v1.pdf
项目主页 : https://thu-sage.github.io/syll/
仓库链接 : https://github.com/THU-SAGE/syll
案例链接网站:https://thu-sage.github.io/syll/research.html
Syll 秉承四大核心设计理念,打造更智能、安全、易用、多模态的 AI 执行能力:
首先,Syll 具备统一的多模态执行能力,原生兼容 MCP/API、命令行 CLI 与视觉 GUI 三种操作方式,能够根据不同任务场景选择合适的执行路径,实现更灵活的电脑操控。
其次,Syll 支持「示教即技能」机制。用户无需编写代码,也不用手动设定复杂规则,只需要把任务手动操作一遍,Syll 便可自动录制流程、提取关键步骤,并将其沉淀为可复用的智能体技能。
同时,Syll 搭配多模态审计体系,AI 执行的每一步操作都会留下清晰可查的记录,全程透明可视化,让使用过程看得见、更可信。
此外,Syll 采用本地模块化架构,用户的记忆、技能、规则以及个人偏好,都可以以可编辑文件的形式存储在本地,既保障数据隐私安全,又具备较高的扩展性。
Syll 多模态全交互系统 一、统一 GUI、CLI 与 MCP/API 的操作能力
1. 什么是完整的智能体动作空间?
很多桌面智能体将 GUI、CLI 与 MCP 视为彼此替代的实现方案,但真实工作流里,人一直在不同的动作方式之间切换:
GUI :面对 Photoshop、Blender、Godot 这类视觉软件时,界面就是任务本身;
CLI :面对批处理、文件操作、环境检查时,命令行更直接、更稳定;
MCP/API :面对结构化工具、外部服务时,接口调用更可靠。
Syll 的设计起点,不是在 GUI、CLI、MCP 之间选择,而是把它们放进同一个执行回路:需要观察界面时走 GUI,需要批量处理时切 CLI,需要连接服务时走 MCP/API。我们认为一个更完整的动作空间,并不是「功能堆得更多」,而是让智能体在不同工作表面之间自然流转:看得见、点得到、跑得动,也接得上工具。
2. 面向复杂桌面软件的真实操作能力
如果一个任务能被压成一次 API 调用,那它当然该走 API。但很多桌面任务并不是这样。Blender 里的建模和场景编辑,状态分布在视图、对象层级、属性面板和空间关系里;Photoshop 的图像编辑依赖画布、图层和局部视觉判断;Godot 里的逻辑调试,又混合了界面操作、错误弹窗和运行反馈。这些软件要求智能体真正理解桌面环境,而不是只在网页表单或标准 API 里工作。
Syll 把 GUI 控制视为动作空间的一部分,而不是 API 不可用时的临时补丁。她需要学会观察屏幕、定位目标、处理弹窗、等待状态变化,也需要在适合的时候切到命令行或工具接口,避免把所有问题都变成笨拙的点击。
二、通过示教快速生成 GUI 技能