OpenAI再出招反击DeepSeek,“深度研究”在这个终极测试超越R1

虎嗅APP 2025-02-03 15:01:42

DeepSeek席卷的AI风暴尚未消停。

外媒消息称美国国会议员已经提出新法案,旨在禁止中国AI技术在美国使用。其中包括下载DeepSeek定为犯罪行为,最高可判处20年监禁。

同时据美联社报道,美国得州已发文禁止在政府设备上使用DeepSeek和小红书。

就在DeepSeek遭遇美国政策阻击之际,老对手OpenAI也正如火如荼地举办着一场重要直播活动。

在软银CEO孙正义投资数百亿美元之后,OpenAI今天也选择投桃报李,在东京的直播活动中正式官宣了一项名为DeepResearch(深度研究)功能。

顾名思义,与普通的AI搜索功能有所不同,DeepResearch的野心更足。

它号称是下一代智能Agent,能够独立为你完成任务。

你只需输入你的问题,它就能查找、分析并整合数百个在线来源,生成一份媲美研究分析师水平的综合报告。

更重要的是,该功能的底层模型是由尚未发布的OpenAIo3模型的特定版本驱动,专为网页浏览和数据分析优化,能够运用推理能力搜索、解读并分析海量文本、图片和PDF文件。

这也是专为“在金融、科学、政策和工程等领域从事大量知识工作的专业人士”设计的,这些人群通常需要进行“彻底、精准且可靠的研究”。

另外,这项功能还可化身选购搭子,在你挑选购买汽车、电器或家具时,使用它来仔细研究产品信息或许会大有帮助。

OpenAICEOSamAltman发文称:

“今天,我们正式推出DeepResearch——我们的下一代智能Agent。这就像一种超级能力,让你随时召唤专家!

它可以上网搜索,进行复杂的研究和推理,并为你生成报告。效果非常出色,能完成原本需要数小时甚至数天、花费数百美元的任务。”

目前,DeepResearch功能已向售价200美元的ChatGPTPro用户开放,每月最多可使用100次。

接下来,Plus和Team用户也将获得该功能,随后是企业版。

OpenAI表示,Plus版预计将在一个月内推出,并且付费用户的查询次数限制很快会“明显提高”。

不过,该功能目前仅支持网页版,移动端和桌面端应用程序的集成预计将在本月晚些时候推出。

使用这项功能,用户只需在ChatGPT界面中选择消息输入框中的“DeepResearch”模式,然后输入需要查询的问题即可。

另外,你还可以附加文件或电子表格作为问题的补充,任务开始后,侧边栏输出都会附带“完整的文档、清晰的引用来源以及思维过程的摘要”。

术业有专攻,GPT-4o同样支持搜索功能,但对于涉及多个方面、需要深度和细节的专业研究,DeepResearch能够进行广泛探索,并为每个结论提供来源支持。

响应速度方面,该功能的执行过程可能需要5到30分钟,完成后,用户会收到通知。

该功能的输出内容暂时仅限于文本。不过,OpenAI计划很快增加嵌入式图片、数据可视化以及其他分析类输出。同时,该公司还计划扩展数据来源,包括“订阅制”信息服务和企业内部资源,预计将逐步提供ToB服务。

据悉,DeepResearch通过端到端强化学习训练,专注于复杂的网页浏览和推理任务,覆盖多个领域。

通过这一训练,它学会了规划并执行多步搜索路径,以找到所需数据,并能在必要时回溯调整,实时响应新信息。

OpenAI表示,他们使用了一项名为Humanity’sLastExam的评测来测试该功能。

该测试涵盖100多个学科,包含3000多道涵盖多个学术领域的专家级问题,包括语言学、航天工程、古典学和生态学。

与OpenAIo1相比,DeepResearch在化学、人文社会科学和数学领域的表现提升最为显著。

DeepResearch所使用的模型在专家级问题上的准确率达到了26.6%,创下新高。相比之下,Google的GeminiThinking仅获得6.2%的准确率,Grok-2为3.8%,GPT-4o只有3.3%。

而DeepSeek-R1的准确率只有9.4%,远低于DeepResearch。

在GAIA这一公共基准测试中,DeepResearch所使用的模型达到了最新的业界领先水平(SOTA)。

GAIA评测涵盖三种不同难度级别的现实世界问题,成功完成这些任务需要推理、多模态理解、网页浏览以及工具使用能力。

DeepResearch(cons@64)方法在所有等级上均优于PreviousSOTA和DeepResearch(pass@1),特别是在Level3取得了最大的提升,最终平均分72.57最高。

该结果表明,更高级的DeepResearch方法(cons@64)可以显著提高所有级别的性能,特别是在挑战性更高的Level3上。

不过,指望DeepResearch能完全避免AI幻觉也并非易事,它在报告和引用格式上也可能出错。

即便有着引用链接的参考验证,也建议在使用过程中认真核查AI提供的信息,而非仅仅直接复制粘贴。

值得一提的是,这项AI功能的负责人之一ZhiqingSun(孙之清),本科就读于北京大学计算机科学与技术系。

2019年起,ZhiqingSun在美国卡内基梅隆大学(CMU)语言技术研究所攻读博士学位,2024年起,开始担任OpenAI的研究员。

ZhiqingSun的实习经历也相当丰富,曾在GoogleBrain、微软亚洲研究院、MIT-IBMWatsonAILab等知名AI公司机构实习。

对于这项功能,OpenAI官方表示,今天发布的版本仅仅是个开始。未来,它还能连接到定制化的数据环境,甚至企业级的海量数据存储系统。

AIAgent可以花更长时间思考,以更高的自主性,解决极其复杂的任务。

“DeepResearch的推出标志着我们向更宏伟目标迈出了重要一步——即开发能够进行原创科学研究的通用人工智能(AGI)。这一直是我们长期以来的愿景。”

1 阅读:846

评论列表

花开也无声

花开也无声

13
2025-02-04 02:48

西方媒体,犹太资本使劲吹OpenAI,毕竟投资人投了几百亿美金了,不能打水漂,软银孙正义,OpenAI,甲骨文CEO联合绞杀DS,美国资本压力山大,必须通过各种妖魔化舆论来绞杀DS。

在线寻头

在线寻头

11
2025-02-04 09:08

有人用deep research,发现提供了很多用中文呈现的的资料以及中国的思维模式,说明他们也整合了deep Seek,而且把他们还整懵了.

咔咔咔卡哇伊201

咔咔咔卡哇伊201

7
2025-02-03 21:46

霉果资本对新事物有投资兴趣,而中国资本在以前,这方面就不如霉果,所以就出现了比尔盖茨和马斯克一批科技公司,马云能成功,也是被国外资本投资的,中国人不是没好想法,而是中国资本不如霉果有远见,现在这种状况有所改变,中国的科技公司会越来越多

nuker

nuker

6
2025-02-05 10:59

一个免费的,一个每月200美元,功能差不多,你选哪个?[呲牙笑][呲牙笑]

Hacon

Hacon

6
2025-02-04 12:57

据悉,Deep Research 通过端到端强化学习训练,专注于复杂的网页浏览和推理任务,覆盖多个领域.

雪人

雪人

5
2025-02-03 22:38

感觉应该是抄袭了deepseek的算法

Jack_liang710

Jack_liang710

5
2025-02-04 23:02

问Deepseek去年欧盟纯电车销量,回答是预估180-200万辆,大概率同比增长,实际受补贴削减和加税影响,去年欧盟纯电车销量145万辆同比减少5.9%,用AI去预测股市,楼市,地缘政治根本不靠谱。

澄州传奇

澄州传奇

4
2025-02-04 00:11

这是蒸馏的升级版,不要脸

in77

in77

4
2025-02-04 06:29

这好办以后美国人自己关门闭环养AI,中国和其他地方开放前进!

zzz

zzz

4
2025-02-05 01:43

我们在弄一个名字叫:深度掌控

月辉

月辉

3
2025-02-03 17:58

风继续吹。[呲牙笑][呲牙笑][呲牙笑]

莫问

莫问

3
2025-02-03 22:38

都这样了,为什么还要封呢?

Zzzms

Zzzms

3
2025-02-03 17:07

不就是抄的deepseek的吗

张小胖

张小胖

3
2025-02-04 05:00

deepseek被模仿了

Paradise

Paradise

2
2025-02-05 03:18

有什么卵用,chat GPT5 就是做出来,也不值钱了。就算你美国禁止deepseek,只许用昂贵的chat GPT,你能强迫全世界也必须用收费的chat GPT么?

用户13xxx91

用户13xxx91

2
2025-02-04 10:01

名字都抄袭[哭哭]

琉璃

琉璃

2
2025-02-06 06:05

竞争不赢只能通过行政手段打击了