OpenAI智能助手来了!Operator可像人一样上网,世界要变啥样?

尔東陈谭 2025-01-26 02:08:32

OpenAI进军AI助手领域,新推出的“Operator”的AI智能体,可以帮你浏览网页、完成复杂任务,基本上就像你专属的数字助手。它由一个被称之为 “计算机使用智能体”(简称 CUA)的模型驱动。

那么,它是不是和手机助手一样呢?有哪些特别之处?这里面有很多内容值得深入探讨,我们逐一来看一看。

基本上 Operator 是一个能像人一样浏览互联网的人工智能。它在一个内置的浏览器界面中进行点击、滚动和输入操作,还能完成你平常会亲自做的多步骤任务。

例如,它可以预订航班、寻找你最喜欢的汽水的优惠信息、填写表格,甚至能处理你应用程序中的待办事项列表。

真正神奇的地方在于,它使用的是和我们人类看到的一样的图形用户界面。没有专门针对开发者的友好界面之类的东西。它可以将屏幕视作像素,移动虚拟鼠标,并在虚拟键盘上打字。

之所以能够实现这些能力,是因为它结合了GPT - 4O,借助强化学习,它对图像有高级理解能力以及更上一层楼的推理能力。

另外,OpenAI已经对CUA模型进行了多项测试。一个主要的基准测试叫做osor,它用于检验人工智能在诸如 Windows、Ubuntu 或 Mac OS等整个操作系统上的操作效率。

CUA 在这个测试中成功率达到了 38.1%,虽然低于人类 72.4% 的成功率,但明显高于之前徘徊在 22% 左右的人工智能方法。

另一组测试,Web Arena 和 Web Voyager,专注于网页浏览任务,比如填写表格或浏览电子商务网站。在这些测试中,CUA 在 Web Arena 上的成功率达到了 58.1%,在 Web Voyager 上达到了 87%。比之前最先进的模型有所进步。

虽然,87%这个数字看起来可能很高,但要记住,Web Voyager 的任务通常比较简单。所以,要在更复杂的任务上使其性能接近人类大约 78.2% 的水平,仍然还有很大的差距。

另外,为了展示一些实际应用案例,OpenAI 还用各种任务对 CUA 进行了测试,比如在 GitLab中更新软件许可证、在 Magento 中查找取消的订单以找出取消订单最多的人、将电子邮件中的 PDF 文档合并成一个文件、压缩图像,甚至在剑桥词典网站上完成语法测试。

所有这些任务基本上都是让智能体接管操作,像人一样点击或输入来完成。有时它会遇到困难,不得不尝试多次,或者最终将控制权交回给用户,但总体而言,它已经表明自己能够完成相当广泛的任务,尽管会遇到一些挫折。

不过值得注意的是,目前OpenAI只为订阅了ChatGPT Pro版的美国用户推出Operator 的预览版。

也就是说,目前,Operator是定位更偏向商业或高级用户的产品。但 OpenAI 表示,他们计划在未来向更多层级开放,并希望将其引入 API,这样外部开发者就可以使用相同的 CUA 技术来构建自己的产品。

所以,也许未来我们会看到一波新的依赖通用界面的应用程序浪潮。从本质上讲,借助Operator这样的工具,让人工智能查看屏幕、点击操作并在任何数字环境中解决任务的想法,正在重新定义我们与人工智能的协作方式。

很明显,这项技术不仅仅是一种奢侈,对于在变幻莫测的就业市场中保持领先地位,它正变得至关重要。

当然了,这种网页浏览人工智能智能体,使用起来是便利的,但也存在潜在的滥用问题。它能完成如此多的任务,如果恶意用户试图用它违法或做出不道德的事情,那可能会成为大问题。

而且,人工智能也可能会犯错,从而给你带来损失,比如输入错误的删除重要文件,泄露个人数据或进行未经授权的更改等等。

总之,越接近AGI的人工智能,面临着安全、伦理、法律等问题,都需要提前解决好。否则AI就成了坏人的助手,或者成了人类的敌人。大家说是不是呢?

0 阅读:0
尔東陈谭

尔東陈谭

科技众神更名:尔東陈谭,80后老陈,与你一起聊新鲜科技