AI开始替你操作电脑了：Computer Use Agent如何重塑人机交互¶

想象一下：你对电脑说"帮我把这个月的发票整理成表格发到财务邮箱"，然后松开鼠标，看着光标自己在屏幕上移动——打开文件夹、识别发票、填Excel、写邮件、点击发送。整个过程你的手全程放在膝盖上。

这不是科幻。2026年5月，这件事已经能做到了。

什么是 Computer Use Agent？¶

简单说，Computer Use Agent 就是一个能"看见"屏幕、"操作"鼠标键盘的 AI。它不像传统 RPA 那样需要预设规则，也不像 API 调用那样需要接口权限。它就像一个人坐在电脑前——看图、思考、点击、输入。

OpenAI 的 Operator、Anthropic 的 Computer Use、Google 的 Project Mariner，三家巨头几乎同时在往这个方向猛推。背后的逻辑简单到残酷：世界上绝大多数软件没有 API，但它们都有图形界面。 教会 AI 用 GUI，等于一次性打通了所有软件的自动化。

这件事的意义不亚于当年鼠标的发明。鼠标让人可以直接"指"屏幕上的东西；Computer Use Agent 让人连"指"都不用指了——你说，它做。

为什么偏偏是现在？¶

其实"AI操控电脑"这个想法一点都不新鲜。2016 年就有人用强化学习让 AI 打 Atari 游戏。可那时候的 AI 面对一个电商后台、一套 ERP 系统、一张财务软件界面，基本像个睁眼瞎——连"登录"按钮在哪都不知道。

转折点在于大模型的多模态能力达到了一个临界点：

看懂截图：现在的视觉模型能精准识别按钮、表格、下拉菜单、表单字段
理解上下文：不只是识别物体，而是理解"这个界面的目的是什么，我应该先做什么后做什么"
规划步骤链：能把"报销三张发票"这种模糊指令，拆成打开报销系统→上传发票→填写金额→选择审批人→提交→截图确认这一串具体操作

本质上，Computer Use 就是多模态大模型 + 工具调用 + 任务规划的三合一。三件事拆开看都不新鲜，但合在一起，就产生了一种新的交互方式：意图交互。

实拍程序员松开双手看着屏幕自动操作

三个玩家，三条路线¶

OpenAI Operator：藏在浏览器里¶

OpenAI 的路线最"轻"。Operator 作为浏览器内的 Agent，直接读取网页 DOM 结构加上截图，在浏览器里完成一切操作。订机票、填表单、比价购物——所有你需要在网页上做的事，它都能代劳。

关键创新在于它的 Computer-Using Agent（CUA）模型，专门针对 GUI 操作训练。不是让通用大模型"顺便"点按钮，而是专门训练它怎么滚页面、怎么找下拉菜单、怎么判断一个按钮能不能点。术业有专攻，操作电脑也是一个专项能力。

Anthropic Computer Use：直接操控桌面¶

Anthropic 更激进。它的 Computer Use 功能直接通过截图理解整个屏幕，然后输出鼠标坐标和键盘指令。不局限于浏览器——任何桌面软件，从 Photoshop 到 SAP，只要你能在屏幕上看到，AI 都能操作。

这意味着什么？一个 AI 可以跨软件完成工作流：从 Slack 里收到需求 → 打开 Jira 创建工单 → 在 Figma 里拿设计稿 → 用 Excel 拉数据汇总 → 回 Slack 汇报进度。全程不需要做任何 API 集成——因为这些软件在设计之初就是为了让人用鼠标键盘操作的，而 AI 现在就扮演"人"的角色。

Google Project Mariner：生态整合派¶

Google 的优势在于它本来就什么都有——Chrome、Workspace、Android。Project Mariner 的野心不只是操作网页，而是让 AI 在整个 Google 生态里自由穿梭：Gmail 收到邮件 → 自动在 Calendar 里添加日程 → 在 Docs 里准备资料 → 在 Meet 里提醒你入会。

三条路线看似不同，但底层逻辑完全一致：让 AI 成为那个"会操作电脑的人"，而不是给你再造一套新的系统。

实拍办公桌上双屏电脑显示AI自动处理表格和邮件

谁会最先被改变？¶

第一波：企业后台操作¶

财务对账、HR 录入、供应链管理、客服系统切换——企业软件最大的痛点从来不是功能不够，而是系统之间互不相通。一个客服可能需要在 4 个系统之间来回切换才能处理一个退换货请求。不做系统对接，效率极低；做系统对接，又贵又慢还容易出 bug。

Computer Use Agent 给出的答案很粗暴：不做 API 对接。直接让 AI 像人一样在多个系统间操作。 看到什么点什么，该填什么填什么。这种方式虽然不如 API 优雅，但它能用，而且明天就能用。

第二波：个人生产力¶

订机票要比价 3 个网站、报销要填 5 个表单、报名活动要在不同平台注册——这些"数字苦力活"消耗了每个人大量的碎片时间。Operator 和 Computer Use 的出现意味着：以后这些事说出来就行，不用自己动手。

第三波：无障碍辅助¶

这可能是最有社会价值的方向。对于行动不便或视障人士，Computer Use Agent 意味着他们可以用语音操作任何软件——不需要等待软件厂商做无障碍适配，不需要任何特殊设置。因为 AI 操作软件的方式和一个视力正常的普通人一模一样：看屏幕、点鼠标、敲键盘。

风险和隐忧¶

但也得说实话，路没那么好走。

安全是第一大难关。 你把电脑控制权交给 AI，它就能看到你屏幕上的所有东西——聊天记录、银行余额、私密文件、公司内网。各家公司的解决方案是"本地处理优先"和"敏感操作二次确认"，但比技术更难建立的是信任。你敢让一个 AI 看你屏幕吗？

可靠性是第二大难关。 AI 偶尔还是会"看走眼"——把"删除"当成"保存"，把"取消"看成"确认"。在浏览器里点错一个链接问题不大，但在财务系统里填错一个数字，可能就麻烦了。目前的折中方案是关键步骤人工确认，但这又拉低了自动化效率。

还有就业问题。 如果 AI 真的能操作所有企业软件，那些以"系统操作"为核心的工作——数据录入、客服、财务对账——会发生什么？答案可能不是"消失"，而是"一个人管 10 个 AI Agent"。

实拍科技团队在玻璃会议室讨论AI自动化方案

人机交互的下一章¶

回看人机交互的历史：命令行 → 图形界面 → 触屏 → 语音 → 现在要加上"代理操作"。每一次交互方式变革，既淘汰了一批工具，也养肥了一批新玩家。

Computer Use Agent 代表的是一种"意图交互"——你只需要表达想要什么结果，AI 负责搞清楚怎么做、用什么工具、按什么顺序。你不用再学任何软件的用法，因为 AI 替你学。

这是最接近"贾维斯"的一步。不是 AI 在聊天框里回答你，而是 AI 直接帮你在真实世界里把事情办了。

鼠标和键盘不会消失——但它们可能不再需要你来操作了。