FutureX：首个面向LLM代理的实时未来预测大规模基准测试•任务难度高，要

爱生活爱珂珂 2025-08-24 07:22:01

FutureX：首个面向LLM代理的实时未来预测大规模基准测试

• 任务难度高，要求代理具备复杂分析、信息整合、上下文理解与不确定性决策能力，模拟人类专家在政治、经济、金融等领域的预测思维。

• 数据规模大且多样，涵盖195个权威网站，领域包括政治、经济、金融、体育、科技、文化、健康等，确保全面跨域评测。

• 实时动态更新，采用自动化流水线每日采集未来事件问题、执行预测并在事件结果公布后自动抓取真相进行评分，彻底避免数据污染与历史信息泄露。

• 评测体系丰富，涵盖25款模型，囊括基础LLM、具备搜索推理能力的Agent、开源及闭源深度研究代理，系统分析模型在不同难度层级及领域的表现与弱点。

• 设计四个难度等级，从简单选择到高波动开放式预测，全面考察模型的规划、推理和搜索能力，尤其强调复杂多步推理和不确定性下的前瞻性判断。

• 实验发现：具备搜索与推理能力的模型显著优于单纯基础模型；顶尖模型如Grok-4在高难度任务表现突出；LLM代理尚未超越专业人类分析师，但在部分任务显示出超越人类的潜力。

• 特殊分析展示LLM在金融预测中接近专业分析师水平，但仍有改进空间；深度研究代理易受伪造网站误导，强调安全性挑战；实时搜索能力对时效性事件预测至关重要，当前尚有不足。

FutureX以其动态、无污染和大规模的设计，为推动具备专业级复杂推理与预测能力的LLM代理研究树立了新标杆。

了解详情🔗 arxiv.org/abs/2508.11987

人工智能大语言模型未来预测机器学习智能代理实时评测

0 阅读：0

爱生活爱珂珂

感谢大家的关注

作者最新文章

1

《ReasoningBank: Scaling Agent Self-Evolv

2

今日推介(第1921期)：基于小型网络的递归推理、大型语言模型在争夺受众时产生的

3

[LG]《Large Language Models Achieve Gold

4

[LG]《Agentic Context Engineering: Evolvi

5

[AI]《LLMs Reproduce Human Purchase Inten

6

[AI]《Moloch's Bargain: Emergent Misalign

7

[LG]《Less is More: Recursive Reasoning w

8

早！[太阳] 早安

9

晚安～ [月亮] 晚安

10

《爱可可微博热门分享(10.11)》

热门分类

科技TOP

1

这是做什么工作的？电脑上也看不懂

2

我预感红米k90可能会卖爆！这外观设计颜值一点不输小米17系列，再加上旗舰级别

3

老美开心了，终于让英伟达倒闭了！刚刚英伟达总裁黄仁勋对外宣布：中方市场份额降

4

华为Mate80会在2025年11月发布，大家最关心的是它用的芯片，麒麟9030

5

陈奕迅将现身K90发布会今晚陈奕迅会携新版《K歌之王》空降K90系列发布会现场，

6

中国移动你是良心发现了吗？中国移动你是良心发现了吗？18年的老用户了，每个月就

7

这下你用iPhone的控制中心不会迷茫了。

8

估计不止刘强东和雷军就连马云也发懵了于东来最近这是怎么了，他竟然又说50万元3小

9

10月份即将发布的新手机，看看有没有你喜欢的？

10

华为Mate70Pro在某多多上面百亿补贴的价格才四千多？敢不敢买？看上m

科技最新文章

1

一加Ace6价格正式公布，价格如下，12+256259916+256

2

全世界最先进的芯片企业，美国高通公司和英伟达公司，先后都被中国进行了制裁或者立案

3

双十一iPadAir也降价了，现在值得入吗？盯了好久了，iPadAir终于

4

轻智能手表Top3神仙打架，都可闭眼入！？这几天选轻智能手表选到脑壳疼，就去参

5

华为Pura80Ultra长焦人像对比iPhone17ProMax样

6

nova14系列一图看懂活力版/数字版/Pro/Ultra，根据价格和处理器，大

7

iPhone17e或最便宜苹果手机如果苹果也来下场卷的话，那智能手机市场又会热闹

8

换荣耀别瞎买！这4款目前最值得，性价比直接拉满！❶荣耀X70—8300

9

10月旗舰手机如何选择，最真实的体验分享！在手机同质化严重的当下，到底该如何

10

听我一句劝，苹果17可以先放一放，国产中端机说不定更适合。红米、iQOO和真我，