AI 改变世界，智能体改变 AI。

关于 OpenAI 推出「智能体（Agent）」的传闻早已甚嚣尘上。去年 11 月起，就不断有爆料消息指出，OpenAI 将在 2025 年 1 月上线首个智能体，稍早前还被海外科技媒体 The Information 把范围缩小到了本月底。

而现在，OpenAI 终于按下了智能体时代的启动键——发布了旗下首个智能体 Operator。北京时间 1 月 24 日凌晨，OpenAI 的直播活动吸引了全球科技圈的目光。这场直播的主角，正是万众瞩目的 Operator。

作为真·智能体，Operator 能够模拟人类在电脑上的操作行为，通过点击、滚动、输入等操作直接与网页进行交互，完成各种任务。简单来说，Operator 就像一个拥有「自主意识」的数字员工，可以像人类一样浏览网页、填写表格、订购商品以及预订餐厅等，由此也就可以代替我们进行一些繁琐甚至复杂的操作。

Operator 起始页面，图/ OpenAI

在此之前，OpenAI 已经迈出一步推出了「Tasks（任务）」功能，尝试将 ChatGPT 从一个完全被动的 AI 聊天机器人，开始转变成主动执行任务的 AI 数字助手。而 Operator 的出现，则标志着 OpenAI 正式迈入了智能体时代，实现从「被动处理信息」到「主动完成任务」的进化——这是通往通用人工智能（AGI）的关键一步。

当ChatGPT 学会了「网上冲浪」

首先要说明的是，Operator 目前处于研究预览阶段，仅面向美国的 ChatGPT Pro（200 美元/月）用户，Plus 用户也不能体验。不也同于 Claude 的 Computer Us 以及智谱的 GLM-PC 智能体都直接操作用户的电脑，Operator 是在云端打开一个「浏览器」进行操作。

Introduction to Operator & Agents.gif

左边是对话，右边是云端的浏览器，图/ OpenAI

但要真正明白 Operator 的意义，还是回到实际场景中，在 OpenAI 的现场演示中，看看 AI 是如何像一个经验丰富的「网上冲浪老手」一样，在数字世界里自由穿梭，完成各种任务。

比如在 OpenAI 的现场演示中，就要求 Operator 在 Beretta（餐厅）订一桌今晚 7 点两人的位置。这个指令对于我们人类来说，只需要在美食预订网站上进行几次搜索和筛选就能完成，但对于 AI 来说，却是一项不小的挑战。

而输入餐厅预订要求后，Operator 会在初步分析需求后直接打开一个云端的浏览器后台，开始分步骤搜索餐厅、查看并开始预订。当然，用户也可以透过窗口直接观察到 Operator 的每一步点击、滑动和输入，就像人类一样操作。

通过快照可以回看到 AI 的每一步思考和操作，图/ OpenAI

Operator 的表现确实令人惊艳。它迅速启动了内置的浏览器，然后开始「观察」屏幕上的内容，通过分析网页的结构和元素，找到了搜索框和各种筛选选项。整个过程行云流水，就像真的有一个人在处理一切。

有意思的是，开始 Operator 发现 Beretta 今晚 7 点没有位置后，还会重新检索一个接近用户要求的「预订」，最终告知并主动询问用户是否选择「今晚 7 : 45」这个时间进行预订。

AI 检索后推荐了一个接近的时间，图/ OpenAI

同样地，当「今晚 7 : 45」的机会被其他人抢到后，Operator 回过头来又能提供「今晚 6 : 15」和「今晚 8 : 15」两个预订时间供用户选择。

不仅如此，在购买一组杂货的任务中也可以看出，Operator 可以连续执行任务，通过不断搜索商品、添加到购物车。而最终结算前，Operator 也会要求用户接管控制，进行最终的确认和付款（可以登录账户并保留登入状态），用户也可以临时进行添加或者修改。

视频播放.gif

购买杂物（2x 播放），图/ OpenAI

再结合 OpenAI 此前推出的「Tasks」功能，完全可以想象以后让 Operator 定期补充购买日用品的景象。

而从官方演示以及少数用户分享的测试来看，在购物、订票等场景中，Operator 展现出了很强的适应性和通用性，能够出色地完成各种不同的任务。

另外正如前文所述，用户可以观察 Operator 的每一步操作，当然也可以选择不看，继续让 Operator 同时执行另一个任务，或者干脆忙自己的工作，Operator 向你发送提醒后再进行确认即可。

同时运行多个任务，图/ YouTube

不管是官方演示还是油管博主的测试，都说明了这一点。但 Operator 到底是如何做到这一切的呢？

基于 GPT-4o 打造“CUA”是关键

Operator 之所以能够像人类一样操作电脑，离不开 OpenAI 为其量身打造的「计算机使用智能体（CUA）」。CUA 基于 GPT-4o 的视觉能力以及高级推理技术打造，让 AI「看懂」和「操作」电脑界面，或者说让 AI 和人类一样有了与图形用户界面（GUI）交互的能力。

CUA 首先要做的就是「看懂」屏幕上的内容。它通过分析屏幕截图，理解图像、文字等多种信息，识别出网页上的各种元素，例如按钮、链接、文本框等等。这个过程就像我们人类用眼睛观察世界一样。

甚至知道等一下，图/ OpenAI

然后，CUA 会根据用户的指令和「看到」的内容进行推理和判断，决定下一步要执行什么操作。例如，当用户要求预订餐厅时，CUA 会推理出需要先访问餐厅预订网站，然后在搜索框中输入关键词。这个过程就像我们人类在思考问题一样。

同时，CUA 会执行相应的操作，例如鼠标移动、点击、键盘输入等等。这些操作都非常精准，就像我们通过鼠标、键盘操作电脑一样。也因为这种通用的交互能力，Operator 不需要网站提供 API 接口，几乎可以适用于任何网页。

为了让操作更加智能和连贯，CUA 还通过一个迭代循环进行操作，不断地「观察」、「思考」和「行动」，直至任务完成。遇到挑战或犯错误，Operator 可以利用其推理能力进行自我纠正。而当遇到困难或者需要用户操作时，Operator 也会将控制权交还给用户。

而且 OpenAI 很巧妙地选择了在云端运行浏览器，而不像 Claude Computer Us 以及智谱的 GLM-PC 智能体直接操作用户电脑，容易产生「占用」「隐私」「环境」的问题。

Claude Computer Use，图/ Anthropic

前两个很容易理解。「占用」意味着在智能体操作电脑的时候，用户无法同时进行其他操作，只能等待智能体。「隐私」问题可想而知，毕竟在用户电脑中通常存有大量私密的文件和信息。

「环境」则是指用户实际使用的电脑通常运行环境复杂，不仅是可能遭遇各种系统和软件 Bug，甚至单单启动软件都可能遭遇权限等问题，不管在 Windows、macOS 还是 Linux 下。

相比之下，OpenAI 似乎想避免「步子迈大扯到蛋」，把使用场景限定在最通用的「浏览器」上，同时通过云端运行来确保统一、隐私、可后台运行的操作环境。

尽管 OpenAI 不是第一个打造真·智能体的大模型厂商，但这些技术与产品设计的结合，不仅实现了 AI 从「被动处理信息」到「主动完成任务」的跨越，让 Operator 能够完成各种任务，也让 Operator 在一定程度上超越了 Claude Computer Us 或是智谱的 GLM-PC，更适合主流大众使用。