一、OpenAI全新Agent工具套件发布,可以自己手搓Manus通用Agent,人人都是AI全能打工人
在今天凌晨的召开的发布会上,OpenAI 发布了全套 Agent 开发套件
核心要点如下
1. Responses API:简化复杂任务调用
Responses API是原有Chat Completions API的升级版,整合了工具调用能力,单次API调用即可完成复杂任务,例如网页搜索、文件检索和计算机自动化操作。其特点包括:
内置工具集成:支持网页搜索(可配置国家、时区等参数)、文件搜索(支持21种格式如PDF、DOCX)以及计算机控制工具(CUA,可执行点击、输入等操作)。
兼容性与扩展性:兼容旧版API,未来计划支持音频处理和代码解释器。
定价分层:网页搜索费用较高(25-50美元/千次调用),文件搜索价格较低(2.5美元/千次调用)。
原有的 Chat Completions API 也没下架,但 Pesponses API 既兼容老 API,又会持续更新新功能,除了老 API 没有的Web 搜索、文件搜索、计算机使用功能,未来还将推出音频和代码解释器。之前的代码 稍微修改下代码格式,就可以成功调用了。
Responses API 简洁强大、内置工具、统一设计、直观清晰
2. Agents SDK:多智能体协作框架
这次OpenAI 开源了一个硬货:OpenAI Agent 框架
这是一个开源的 Agent 框架,单 Agent 和多 Agent 系统都可以构建,支持开发者构建多智能体系统,适用于复杂业务流程自动化,例如:
动态任务分配:在跨国电商场景中,可协调语言识别、库存管理、订单处理等不同功能的Agent协作。
安全与监控:提供行为追踪、安全检查机制和实时监控工具,确保智能体协作的可靠性和透明度。
模型兼容性:支持任何符合Chat Completions API的模型(如第三方模型DeepSeek),扩展了应用生态。
Agents SDK:
GitHub地址:https://github.com/openai/openai-agents-python
支持 multi-agent(多 Agent) 的框架,只要符合 OpenAI Chat Completions API 的模型都能用,理论上 DeepSeek 也能用,这对国内用户很方便。
3.三大核心工具:强化实际场景应用
内置工具 (Built-in Tools):这里的工具一共有三个,分别是网页搜索、文件搜索 和 Computer Using Agent(CUA)
在这次的官方发布中,包含三种内置工具:
Web Search / 网页搜索
File Search / 文件搜索
Computer Use Agent(CUA)工具流程图
网页搜索工具:基于GPT-4o模型,实时抓取互联网数据并标注引用来源,适用于动态信息查询。
文件搜索工具:支持向量存储和元数据过滤,快速检索PDF、PPT等格式文件,提升企业知识管理效率。
计算机使用工具(CUA):通过截图识别界面元素,自动执行鼠标点击、文本输入等操作,实现跨平台自动化(如填写表格、操作软件)。
按官方计划,之后还会再加入「代码编译器」,等更新吧
这些东西,都需要前面提到的 Responses API,方式较为通用
以下图片摘自:腾讯网的 赛博禅心 的文章
能力对比
1)Web Search-网页搜索:都可以配置,就是价格略贵,OpenAI 的 API 支持搜索了,国家、时区、搜索量等,可以配置的东西比较多,但价格不便宜
Google Search 的价格是 5 美元 1000 次
Bing Search 的价格是 20 美元 1000 次,
Open AI 的价格最便宜的 25 美元 1000 次,最贵的达到了 50 美元 1000 次。
2)File Search:版本更新
文件搜索也是旧功能的更新,支持包括常见的 .pdf、.docx、.pptx 等 21 种格式(包括 utf-8、utf-16 以及 ascii),价格调用 1000 次 2.5 美元,存储 1 GB 每天 0.1 美元。
3)计算机使用工具-CUA:截图就能实现自动化
Computer Use Agent 可以让 AI 通过截图界面理解来执行交互操作,从而实现自动化功能,它可以识别鼠标单击、双击、滚动、坐标、路径,输入文本、等待、组合键、截图等共 9 种行为,然后 CUA 进行自动的执行,就能操作电脑了。
让 AI 通过截图理解界面状态并执行交互操作,实现自动化任务。
在接口文档,发现这东西目前支持 9 种行为
这些行为,将会被 CUA 进行自动的组合和执行,达到操作电脑的效果
按 OpenAI 的说法,性能肯定是 Sota(遥遥领先) 的
对了,如果你想快速体验,可以直接fork这个项目
GitHub 有示例项目可以去先试试体验一下。可以直接 fork 这个项目
https://github.com/openai/openai-cua-sample-app
4.监控工具 及 开发者资源与生态建设
开源示例项目:GitHub已发布CUA示例应用和Agents SDK代码库,开发者可快速上手。
监控工具:提供执行过程追踪和调试功能,帮助优化智能体行为。帮助追踪和检查 Agent 的执行过程
5.行业影响与未来展望
劳动力革命:OpenAI预测2025年将是“AI智能体元年”,Operator等工具将推动AI从“被动应答”转向“主动执行任务”,例如预订餐厅、处理电商订单等。
企业级应用:与DoorDash、Uber等企业的合作案例表明,智能体可优化客户体验、提升转化率,尤其在重复性任务中替代人力。
技术挑战:需平衡安全与创新,例如防范“提示注入攻击”和保障用户隐私。
二、总结
OpenAI此次发布的Agent套件标志着AI技术向“主动执行”的转型,通过Responses API和Agents SDK降低了开发门槛,而内置工具则覆盖了搜索、文件管理和自动化操作等核心场景。随着多智能体协作能力的增强,未来或引发电商、客服、办公等领域的效率革命。开发者可通过官方资源快速接入,企业需关注安全与伦理问题以充分利用这一技术浪潮。 Agent 套件的发布,必将改变我们的学习和生活,如果你还没有 Manus 邀请码 不妨式试OpenAI 的Agent套件
可点、赞、关、注、我