
AI开始替你操作电脑了:Computer Use Agent如何重塑人机交互¶
想象一下:你对电脑说"帮我把这个月的发票整理成表格发到财务邮箱",然后松开鼠标,看着光标自己在屏幕上移动——打开文件夹、识别发票、填Excel、写邮件、点击发送。整个过程你的手全程放在膝盖上。
这不是科幻。2026年5月,这件事已经能做到了。
什么是 Computer Use Agent?¶
简单说,Computer Use Agent 就是一个能"看见"屏幕、"操作"鼠标键盘的 AI。它不像传统 RPA 那样需要预设规则,也不像 API 调用那样需要接口权限。它就像一个人坐在电脑前——看图、思考、点击、输入。
OpenAI 的 Operator、Anthropic 的 Computer Use、Google 的 Project Mariner,三家巨头几乎同时在往这个方向猛推。背后的逻辑简单到残酷:世界上绝大多数软件没有 API,但它们都有图形界面。 教会 AI 用 GUI,等于一次性打通了所有软件的自动化。
这件事的意义不亚于当年鼠标的发明。鼠标让人可以直接"指"屏幕上的东西;Computer Use Agent 让人连"指"都不用指了——你说,它做。
为什么偏偏是现在?¶
其实"AI操控电脑"这个想法一点都不新鲜。2016 年就有人用强化学习让 AI 打 Atari 游戏。可那时候的 AI 面对一个电商后台、一套 ERP 系统、一张财务软件界面,基本像个睁眼瞎——连"登录"按钮在哪都不知道。
转折点在于大模型的多模态能力达到了一个临界点:
- 看懂截图:现在的视觉模型能精准识别按钮、表格、下拉菜单、表单字段
- 理解上下文:不只是识别物体,而是理解"这个界面的目的是什么,我应该先做什么后做什么"
- 规划步骤链:能把"报销三张发票"这种模糊指令,拆成打开报销系统→上传发票→填写金额→选择审批人→提交→截图确认 这一串具体操作
本质上,Computer Use 就是多模态大模型 + 工具调用 + 任务规划的三合一。三件事拆开看都不新鲜,但合在一起,就产生了一种新的交互方式:意图交互。

三个玩家,三条路线¶
OpenAI Operator:藏在浏览器里¶
OpenAI 的路线最"轻"。Operator 作为浏览器内的 Agent,直接读取网页 DOM 结构加上截图,在浏览器里完成一切操作。订机票、填表单、比价购物——所有你需要在网页上做的事,它都能代劳。
关键创新在于它的 Computer-Using Agent(CUA)模型,专门针对 GUI 操作训练。不是让通用大模型"顺便"点按钮,而是专门训练它怎么滚页面、怎么找下拉菜单、怎么判断一个按钮能不能点。术业有专攻,操作电脑也是一个专项能力。
Anthropic Computer Use:直接操控桌面¶
Anthropic 更激进。它的 Computer Use 功能直接通过截图理解整个屏幕,然后输出鼠标坐标和键盘指令。不局限于浏览器——任何桌面软件,从 Photoshop 到 SAP,只要你能在屏幕上看到,AI 都能操作。
这意味着什么?一个 AI 可以跨软件完成工作流:从 Slack 里收到需求 → 打开 Jira 创建工单 → 在 Figma 里拿设计稿 → 用 Excel 拉数据汇总 → 回 Slack 汇报进度。全程不需要做任何 API 集成——因为这些软件在设计之初就是为了让人用鼠标键盘操作的,而 AI 现在就扮演"人"的角色。
Google Project Mariner:生态整合派¶
Google 的优势在于它本来就什么都有——Chrome、Workspace、Android。Project Mariner 的野心不只是操作网页,而是让 AI 在整个 Google 生态里自由穿梭:Gmail 收到邮件 → 自动在 Calendar 里添加日程 → 在 Docs 里准备资料 → 在 Meet 里提醒你入会。
三条路线看似不同,但底层逻辑完全一致:让 AI 成为那个"会操作电脑的人",而不是给你再造一套新的系统。

谁会最先被改变?¶
第一波:企业后台操作¶
财务对账、HR 录入、供应链管理、客服系统切换——企业软件最大的痛点从来不是功能不够,而是系统之间互不相通。一个客服可能需要在 4 个系统之间来回切换才能处理一个退换货请求。不做系统对接,效率极低;做系统对接,又贵又慢还容易出 bug。
Computer Use Agent 给出的答案很粗暴:不做 API 对接。直接让 AI 像人一样在多个系统间操作。 看到什么点什么,该填什么填什么。这种方式虽然不如 API 优雅,但它能用,而且明天就能用。
第二波:个人生产力¶
订机票要比价 3 个网站、报销要填 5 个表单、报名活动要在不同平台注册——这些"数字苦力活"消耗了每个人大量的碎片时间。Operator 和 Computer Use 的出现意味着:以后这些事说出来就行,不用自己动手。
第三波:无障碍辅助¶
这可能是最有社会价值的方向。对于行动不便或视障人士,Computer Use Agent 意味着他们可以用语音操作任何软件——不需要等待软件厂商做无障碍适配,不需要任何特殊设置。因为 AI 操作软件的方式和一个视力正常的普通人一模一样:看屏幕、点鼠标、敲键盘。
风险和隐忧¶
但也得说实话,路没那么好走。
安全是第一大难关。 你把电脑控制权交给 AI,它就能看到你屏幕上的所有东西——聊天记录、银行余额、私密文件、公司内网。各家公司的解决方案是"本地处理优先"和"敏感操作二次确认",但比技术更难建立的是信任。你敢让一个 AI 看你屏幕吗?
可靠性是第二大难关。 AI 偶尔还是会"看走眼"——把"删除"当成"保存",把"取消"看成"确认"。在浏览器里点错一个链接问题不大,但在财务系统里填错一个数字,可能就麻烦了。目前的折中方案是关键步骤人工确认,但这又拉低了自动化效率。
还有就业问题。 如果 AI 真的能操作所有企业软件,那些以"系统操作"为核心的工作——数据录入、客服、财务对账——会发生什么?答案可能不是"消失",而是"一个人管 10 个 AI Agent"。

人机交互的下一章¶
回看人机交互的历史:命令行 → 图形界面 → 触屏 → 语音 → 现在要加上"代理操作"。每一次交互方式变革,既淘汰了一批工具,也养肥了一批新玩家。
Computer Use Agent 代表的是一种"意图交互"——你只需要表达想要什么结果,AI 负责搞清楚怎么做、用什么工具、按什么顺序。你不用再学任何软件的用法,因为 AI 替你学。
这是最接近"贾维斯"的一步。不是 AI 在聊天框里回答你,而是 AI 直接帮你在真实世界里把事情办了。
鼠标和键盘不会消失——但它们可能不再需要你来操作了。