来源:科技眼
深夜,OpenAI发布了首个智能体Operator。这款AI并非普通的智能助手,它可以像人类一样操作电脑,甚至直接与网页交互,无论是打字、点击还是滚动页面,都能顺畅完成。

Operator究竟是什么?它具备哪些能力?简单来说,它是一种全新的AI模型,像一个能自己操作电脑的“数字管家”。平时我们用电脑时需要手动点击、输入指令或寻找信息,而Operator完全可以代劳,自动完成这些任务。
1. 从用户需求看,现代社会中,重复性和机械化的数字任务屡见不鲜。比如在办公场景中,表单填写、数据整理、信息搜索这些任务不仅耗时费力,还容易出错。Operator的目标就是通过自动化解决这些问题,提高工作效率。

2. 从技术发展看,目前大多数AI仅限于信息处理或问答交互,缺乏实际的执行能力。而Operator的核心突破在于将认知与执行结合,形成闭环。这标志着AI技术迈向更高层次。
3. 从长远战略看,开发Operator是OpenAI探索AI潜力的重要一步。通过赋予AI操作电脑的能力,它为未来更复杂的智能应用奠定了技术基础,与RPA(机器人流程自动化)技术有异曲同工之妙。
首先,它能精准理解指令。无论你要求它完成什么任务,它都能快速理解并执行。例如,你让它帮你买一双运动鞋,它不仅能找到合适的商品,还能比较价格,为你挑选最划算的一款。
其次,Operator具备多种操作能力,尤其是在以下四个方面表现突出:网页浏览与信息提取、表单填写与数据录入、文件管理与文档处理、邮件收发与日程安排。
比如,在采购商品时,Operator可以根据预算、品牌偏好等条件,筛选出最符合需求的商品。你若需要订机票,它能自动搜索航班、比较价格并完成预订,整个过程完全不需要人工干预。
1. 复杂任务处理:例如安排会议时,Operator会协调参会人员的时间、预订会议室,并自动发送通知,全程实现自动化。
2. 持续学习与优化:它还能从以往的任务中学习,优化自身的操作方式,从而变得越来越高效。
你只需告诉Operator:“帮我买一双耐克运动鞋,预算500元左右。”它会自动完成搜索、比较价格和下单,甚至还能找到最优惠的折扣券。这一切无需你亲自操作,省时又省心。

注册账号、申请贷款或填写复杂在线表格,这些繁琐又易出错的任务,Operator也能轻松完成。
假如你正在写一篇关于人工智能的论文,需要查找最新的研究动态。以往你可能需要在多个网站间切换,手动整理信息。而Operator能直接搜索相关内容,提取关键信息,甚至为你找出相关的学术论文链接,极大地提升效率。
安排会议时,Operator会根据双方的时间表找到合适的时间,预订会议室并发送通知。这些细碎的工作可以完全交给它,让你专注于更重要的事情。

想制作一个表情包,但不会用图片编辑工具?只需告诉Operator“帮我做一个搞笑的表情包,主题是‘周一的我’。”它会自动找到合适的图片,添加文字并调整风格,为你生成一张有趣的表情包。
以往寻找文件需要逐个打开文件夹,费时费力。现在,Operator能帮你快速定位文件,并自动分类整理,大幅提升工作效率。
以上只是Operator众多能力中的一部分,更多场景还有待进一步探索。
Operator的训练过程分为四个阶段:广泛学习、模仿人类操作(监督学习)、强化学习以及通过人类反馈优化。
这一阶段,Operator主要学习基础的计算机操作技能,如点击链接、填写表单或打开文件夹。
此阶段,Operator通过更复杂的任务训练,学会制定策略、解决问题以及处理突发情况。例如,在帮助用户购买商品时,它会综合考虑预算和需求,智能筛选最优选项。遇到错误时,它能自行纠正操作或提示用户确认。
通过人类训练员的反馈,Operator在实际应用中不断改进,减少错误,提升真实场景中的适应性和效率。
值得注意的是,Operator的训练数据更偏向视觉和交互任务,与主要处理文本的GPT-4有显著区别。这使得Operator在操作图形界面方面表现更佳,但在文本处理灵活性上略逊一筹。
Operator的开发过程中,OpenAI高度重视安全性。毕竟,赋予AI操作电脑的能力如同交给它一双“无形的手”,因此必须采取严格的防护措施。

通过这些严格的设计和测试,Operator不仅展现了其创新性和实用性,还为AI技术在未来的广泛应用提供了重要参考。