AI 改变世界,智能体改变 AI。

关于 OpenAI 推出「智能体(Agent)」的传闻早已甚嚣尘上。去年 11 月起,就不断有爆料消息指出,OpenAI 将在 2025 年 1 月上线首个智能体,稍早前还被海外科技媒体 The Information 把范围缩小到了本月底。


而现在,OpenAI 终于按下了智能体时代的启动键——发布了旗下首个智能体 Operator。北京时间 1 月 24 日凌晨,OpenAI 的直播活动吸引了全球科技圈的目光。这场直播的主角,正是万众瞩目的 Operator。


作为真·智能体,Operator 能够模拟人类在电脑上的操作行为,通过点击、滚动、输入等操作直接与网页进行交互,完成各种任务。简单来说,Operator 就像一个拥有「自主意识」的数字员工,可以像人类一样浏览网页、填写表格、订购商品以及预订餐厅等,由此也就可以代替我们进行一些繁琐甚至复杂的操作。


23openai-operator-stills-handout-articleLarge.jpeg

Operator 起始页面,图/ OpenAI


在此之前,OpenAI 已经迈出一步推出了「Tasks(任务)」功能,尝试将 ChatGPT 从一个完全被动的 AI 聊天机器人,开始转变成主动执行任务的 AI 数字助手。而 Operator 的出现,则标志着 OpenAI 正式迈入了智能体时代,实现从「被动处理信息」到「主动完成任务」的进化——这是通往通用人工智能(AGI)的关键一步。


当ChatGPT 学会了「网上冲浪」


首先要说明的是,Operator 目前处于研究预览阶段,仅面向美国的 ChatGPT Pro(200 美元/月)用户,Plus 用户也不能体验。不也同于 Claude 的 Computer Us 以及智谱的 GLM-PC 智能体都直接操作用户的电脑,Operator 是在云端打开一个「浏览器」进行操作。


Introduction to Operator & Agents.gif

左边是对话,右边是云端的浏览器,图/ OpenAI


但要真正明白 Operator 的意义,还是回到实际场景中,在 OpenAI 的现场演示中,看看 AI 是如何像一个经验丰富的「网上冲浪老手」一样,在数字世界里自由穿梭,完成各种任务。


比如在 OpenAI 的现场演示中,就要求 Operator 在 Beretta(餐厅)订一桌今晚 7 点两人的位置。这个指令对于我们人类来说,只需要在美食预订网站上进行几次搜索和筛选就能完成,但对于 AI 来说,却是一项不小的挑战。


而输入餐厅预订要求后,Operator 会在初步分析需求后直接打开一个云端的浏览器后台,开始分步骤搜索餐厅、查看并开始预订。当然,用户也可以透过窗口直接观察到 Operator 的每一步点击、滑动和输入,就像人类一样操作。


SCR-20250124-pnee.png

通过快照可以回看到 AI 的每一步思考和操作,图/ OpenAI


Operator 的表现确实令人惊艳。它迅速启动了内置的浏览器,然后开始「观察」屏幕上的内容,通过分析网页的结构和元素,找到了搜索框和各种筛选选项。整个过程行云流水,就像真的有一个人在处理一切。


有意思的是,开始 Operator 发现 Beretta 今晚 7 点没有位置后,还会重新检索一个接近用户要求的「预订」,最终告知并主动询问用户是否选择「今晚 7 : 45」这个时间进行预订。


SCR-20250124-pjes.png

AI 检索后推荐了一个接近的时间,图/ OpenAI


同样地,当「今晚 7 : 45」的机会被其他人抢到后,Operator 回过头来又能提供「今晚 6 : 15」和「今晚 8 : 15」两个预订时间供用户选择。


不仅如此,在购买一组杂货的任务中也可以看出,Operator 可以连续执行任务,通过不断搜索商品、添加到购物车。而最终结算前,Operator 也会要求用户接管控制,进行最终的确认和付款(可以登录账户并保留登入状态),用户也可以临时进行添加或者修改。


视频播放.gif

购买杂物(2x 播放),图/ OpenAI


再结合 OpenAI 此前推出的「Tasks」功能,完全可以想象以后让 Operator 定期补充购买日用品的景象。


而从官方演示以及少数用户分享的测试来看,在购物、订票等场景中,Operator 展现出了很强的适应性和通用性,能够出色地完成各种不同的任务。


另外正如前文所述,用户可以观察 Operator 的每一步操作,当然也可以选择不看,继续让 Operator 同时执行另一个任务,或者干脆忙自己的工作,Operator 向你发送提醒后再进行确认即可。


SCR-20250124-pmqg.png

同时运行多个任务,图/ YouTube


不管是官方演示还是油管博主的测试,都说明了这一点。但 Operator 到底是如何做到这一切的呢?


基于 GPT-4o 打造“CUA”是关键


Operator 之所以能够像人类一样操作电脑,离不开 OpenAI 为其量身打造的「计算机使用智能体(CUA)」。CUA 基于 GPT-4o 的视觉能力以及高级推理技术打造,让 AI「看懂」和「操作」电脑界面,或者说让 AI 和人类一样有了与图形用户界面(GUI)交互的能力。


CUA 首先要做的就是「看懂」屏幕上的内容。它通过分析屏幕截图,理解图像、文字等多种信息,识别出网页上的各种元素,例如按钮、链接、文本框等等。这个过程就像我们人类用眼睛观察世界一样。


SCR-20250124-poiy.png

甚至知道等一下,图/ OpenAI


然后,CUA 会根据用户的指令和「看到」的内容进行推理和判断,决定下一步要执行什么操作。例如,当用户要求预订餐厅时,CUA 会推理出需要先访问餐厅预订网站,然后在搜索框中输入关键词。这个过程就像我们人类在思考问题一样。


同时,CUA 会执行相应的操作,例如鼠标移动、点击、键盘输入等等。这些操作都非常精准,就像我们通过鼠标、键盘操作电脑一样。也因为这种通用的交互能力,Operator 不需要网站提供 API 接口,几乎可以适用于任何网页。


为了让操作更加智能和连贯,CUA 还通过一个迭代循环进行操作,不断地「观察」、「思考」和「行动」,直至任务完成。遇到挑战或犯错误,Operator 可以利用其推理能力进行自我纠正。而当遇到困难或者需要用户操作时,Operator 也会将控制权交还给用户。


而且 OpenAI 很巧妙地选择了在云端运行浏览器,而不像 Claude Computer Us 以及智谱的 GLM-PC 智能体直接操作用户电脑,容易产生「占用」「隐私」「环境」的问题。


accesswximg.gif

Claude Computer Use,图/ Anthropic


前两个很容易理解。「占用」意味着在智能体操作电脑的时候,用户无法同时进行其他操作,只能等待智能体。「隐私」问题可想而知,毕竟在用户电脑中通常存有大量私密的文件和信息。


「环境」则是指用户实际使用的电脑通常运行环境复杂,不仅是可能遭遇各种系统和软件 Bug,甚至单单启动软件都可能遭遇权限等问题,不管在 Windows、macOS 还是 Linux 下。


相比之下,OpenAI 似乎想避免「步子迈大扯到蛋」,把使用场景限定在最通用的「浏览器」上,同时通过云端运行来确保统一、隐私、可后台运行的操作环境。


尽管 OpenAI 不是第一个打造真·智能体的大模型厂商,但这些技术与产品设计的结合,不仅实现了 AI 从「被动处理信息」到「主动完成任务」的跨越,让 Operator 能够完成各种任务,也让 Operator 在一定程度上超越了 Claude Computer Us 或是智谱的 GLM-PC,更适合主流大众使用。


AI 改变世界,智能体改变 AI


过去一年,智能体几乎成了 AI 行业的共识。但实际上很多厂商宣传的「智能体」只是对上下文进行了简单的定制,例如角色扮演类的「智能体」只是预设了一段人物设定文本,然后将问题进行拆分执行。


本质上仍然是软件模块,而非真正能够自主行动的智能体。


而真正的智能体作为大模型时代的应用或者说交互窗口,应该能够像人类一样进行操作和行动,例如操作电脑、执行任务等,直接替代人类执行所有不必要的操作。


Capture-2025-01-24-180151.png

图/智谱


这一点非常重要,可以区分概念炒作和真正的技术突破,也能让我们看清 Claude Computer Use、荣耀 YOYO 智能体以及今天 OpenAI Operator 的价值。


不过也要明白,Operator 以及其他类似的「真·智能体」仍然处于早期的摸索阶段。核心还是「通用性」的挑战,即便到了今天 OpenAI 的 Operator,智能体还是没有实现真正和人类一样的通用化交互能力,还不支持任意网站和任意程序。


image.png

YOYO 智能体自动订购的咖啡,图/雷科技


而互联网是一个充满变化的世界,面对数不清的网站和交互设计,如何让智能体始终保持适应性,是一个需要长期解决的问题。


尽管如此,但依旧能够看到智能体作为「AI 应用」的巨大价值,可以将我们从繁琐重复的操作中解放出来,让我们有更多的时间和精力去从事更有创造性和更有意义的工作。更重要的是极大地提高了交互效率,降低了交互门槛。


举一个非常实际的例子,最近短视频和社交平台上都在流行大学生过年回家给老人卸载流氓应用、关闭广告设置,一个关键原因在于智能手机对于老一辈来说交互门槛还是高了。


与此相对的是,大模型带来了前所未有的自然语言交互能力,而智能体则在尝试更进一步解放人类的双手和大脑。


a65bcd538ef7e8569cb4612abf1c65f.jpg


2024科技大盘点:


1、24年最伟大10款科技产品榜单出炉:款款王炸,AI为王!

2、雷科技编辑2024买了啥?手机、耳机最受宠,可穿戴无人问津?


手机行业的2024:


1、2024年十大爆款手机:款款都凶残,国产厉害了

2、24年国产手机赢麻了!苹果三星全面溃败

3、2024旗舰手机盘点:影像和AI才是今年的关键词

4、千元机,逆袭了!!!

5、2024年,线下手机彻底杀疯了!

6、2024年,细分手机杀疯了!

7、果味手机,彻底火了!!!

8、2024年手机狂卷创新:十大技术起飞,一切为了“更实用”

9、手机影像卷疯了!九大趋势下,安卓全面碾压iPhone

10、2024年,年度最无用的手机设计!

11、24年手机配置开倒车!摄像头减少、屏幕变小,连充电都慢了!


智能硬件的2024:


1、2024年,无线耳机杀疯了!

2、2024年的运动相机:大疆GoPro影石斗法,“御三家”死磕产品

3、智能清洁的2024:七大硬核技术突破,产品创新空间依然巨大

4、2024年平板电脑卷疯了:AI强化生产力,告别“泡面盖”

5、2024年教育硬件大爆发!5款经典产品,款款AI驱动

6、2024年智能眼镜杀疯了!不只是AI,还有这七大变化

7、智能手表2024的五大趋势:健康、AI、颜值、续航……

8、2024年度电视盘点:MiniLED成白菜价,国产旗舰狂卷画质

9、2024年年度游戏机出炉!性能升级成大主题,“移动时代”来了


PC行业的2024:


1、2024年8大年度PC榜单出炉:靠设计创新,用AI破局

2、PC DIY的2024:从低迷中走出,大厂纷纷押注AI


AI软件的2024:


1、2024年十大国产大模型盘点:款款超能打,黑马却是这家?

2、九大年度APP出炉!要么AI原生应用,要么AI重塑应用

3、AI输入法谁最强?2024年度大模型输入法榜单来了!


科技公司的2024:


1、苹果的2024:产品平庸,AI遇阻,生态墙倒塌!

2、高通骁龙的2024:从移动之王到智能世界的基石

3、联发科的2024:甜点芯守基本盘,旗舰芯冲高端,靠AI赢麻了


智能汽车的2024:


1、2024十大爆款神车出炉!比亚迪占了一半,智能化还只是小众需求

2、自主五常销量公布:比亚迪赢麻了,25年五常变四强?

3、2024智驾风云榜:华为小鹏争霸,“蔚小理”加速,老车企转身

4、2024年汽车十大技术趋势盘点:智能化成了潮水的大方向

5、25年车圈淘汰赛加速!哪吒、远航危险了,微小型车被逼上绝路?


汽车公司的2024:


1、2024,比亚迪活成“卷王”

2、2024年,鸿蒙智行彻底杀疯了!!!

3、2024深蓝汽车赢麻了!多亏了华为?

4、小鹏汽车的2024:上演教科书式逆袭,四面出击下忧患犹存

5、理想的2024:Mega出师不利,卖车、智驾、出海步步为营