1981 年 4 月 27 日,施乐公司在纽约发布了 Xerox Star 8010 工作站——人类历史上第一台配备图形用户界面(GUI)的商用计算机。

位图显示、桌面隐喻、图标、窗口、鼠标、所见即所得(WYSIWYG),这些今天看来理所当然的交互方式,都始于那台售价 16,595 美元的机器。

今天,2026 年 4 月 27 日,GUI 诞生整整 45 周年。

从施乐 Star 到 iPhone:GUI 的四次跨越

GUI 的 45 年历史,可以用四个里程碑来串联:

1981 · 施乐 Star:GUI 诞生

施乐帕洛阿尔托研究中心(PARC)的成果走出实验室。Star 8010 首次将位图显示、窗口系统、鼠标操作和桌面隐喻整合到一台商用计算机中。虽然商业上不成功(整套系统售价超过 5 万美元),但它为后来的所有图形界面奠定了技术基础。

主要开发者 David Liddle 和 David Canfield Smith 提出的设计理念是:计算机界面应该是视觉化的、直觉的、自解释的。用户不需要记忆命令行指令,通过视觉就能理解如何操作。

1984 · Macintosh:GUI 走进消费市场

乔布斯在参观施乐 PARC 后,将 GUI 的核心理念带入了 Mac。128K Mac 售价 2,495 美元,虽然性能有限,但让 GUI 从实验室走进了千家万户。

1995 · Windows 95:GUI 成为全球标准

「开始」菜单、任务栏、桌面快捷方式。微软将 GUI 推广到了全球数亿台个人电脑上。至此,命令行操作从主流使用场景中逐渐退出。

2007 · iPhone:GUI 从桌面延伸到掌心

多点触控替代了鼠标,手指直接操作屏幕上的对象。GUI 的交互方式从间接操作(鼠标作为中介)变为直接操作。

第五次跨越:AI 成为 GUI 的新「用户」

前四次跨越有一个共同前提:GUI 的使用者始终是人

2025 到 2026 年,一个新的变化正在发生——AI 开始学会「看」屏幕并自主操作 GUI。

这就是 GUI Agent 技术方向。核心思路是:让 AI 模型像人一样通过视觉理解界面内容,然后执行键鼠操作完成任务。输入是屏幕截图,输出是操作序列。

这和传统自动化方案有本质区别:

  • API/CLI 驱动:依赖目标系统提供接口,没有接口就无法自动化
  • DOM/CDP 解析:主要适用于浏览器场景,桌面应用覆盖不到
  • 纯视觉驱动:不依赖应用层接口,任何有 GUI 的应用都可以操作

纯视觉方案的逻辑恰恰继承了施乐 Star 的设计初衷——GUI 是自解释的,看到就知道怎么操作。45 年前这个能力属于人类,现在 AI 也在获得它。

端侧 GUI Agent:Mano-P 的实践

在 GUI Agent 方向上,明略科技开源了 Mano-P(Apache 2.0 协议)。Mano-P 采用 GUI-VLA(Vision-Language-Action)架构,将视觉理解、语言推理和动作执行整合在端到端模型中,支持在本地设备上运行。

评测表现(数据来自项目 README 及公开 Benchmark):

  • Mano-P 72B 模型在 OSWorld 基准测试中达到 58.2% 准确率,排名第一(第二名 45.0%)
  • 在 WebRetriever Protocol I 评测中达到 41.7 NavEval 分(第一名),超过 Gemini 2.5 Pro(40.9)和 Claude 4.5(31.3)

端侧运行能力

  • Mano-P 4B 量化模型(w4a16)在 Apple M4 芯片 Mac 上运行
  • 推理速度:Prefill 476 tokens/s,Decode 76 tokens/s
  • 峰值内存仅 4.3GB
  • 全本地执行,屏幕截图和任务数据不出设备

硬件要求:搭载 Apple M4 芯片、32GB RAM 的 Mac,或通过 Mano-P 算力棒(USB 4.0)扩展。

技术路线上,Mano-P 采用三阶段训练(SFT → 离线强化学习 → 在线强化学习)和 think-act-verify 循环推理机制,并通过 GS-Pruning 算法对视觉 token 进行剪枝以优化端侧推理效率。

45 年,一个完整的循环

从 1981 年施乐 Star 让人类学会「看着屏幕操作电脑」,到 2026 年 AI Agent 开始「看着屏幕自主执行任务」——GUI 的 45 年走出了一个完整的循环。

施乐 Star 虽然商业上没有成功,但它定义的交互范式——位图显示、桌面隐喻、WYSIWYG——催生了后续的 Mac、Windows、iOS、Android。如今,GUI Agent 正在这个范式之上开启新的篇章。

界面没有变,变的是「谁在看屏幕」。


项目地址Mano-P

技术报告arXiv:2509.17336

Logo

欢迎加入 MCP 技术社区!与志同道合者携手前行,一同解锁 MCP 技术的无限可能!

更多推荐