FutureX:首个面向LLM代理的实时未来预测大规模基准测试•任务难度高,要

爱生活爱珂珂 2025-08-24 07:22:01

FutureX:首个面向LLM代理的实时未来预测大规模基准测试

• 任务难度高,要求代理具备复杂分析、信息整合、上下文理解与不确定性决策能力,模拟人类专家在政治、经济、金融等领域的预测思维。

• 数据规模大且多样,涵盖195个权威网站,领域包括政治、经济、金融、体育、科技、文化、健康等,确保全面跨域评测。

• 实时动态更新,采用自动化流水线每日采集未来事件问题、执行预测并在事件结果公布后自动抓取真相进行评分,彻底避免数据污染与历史信息泄露。

• 评测体系丰富,涵盖25款模型,囊括基础LLM、具备搜索推理能力的Agent、开源及闭源深度研究代理,系统分析模型在不同难度层级及领域的表现与弱点。

• 设计四个难度等级,从简单选择到高波动开放式预测,全面考察模型的规划、推理和搜索能力,尤其强调复杂多步推理和不确定性下的前瞻性判断。

• 实验发现:具备搜索与推理能力的模型显著优于单纯基础模型;顶尖模型如Grok-4在高难度任务表现突出;LLM代理尚未超越专业人类分析师,但在部分任务显示出超越人类的潜力。

• 特殊分析展示LLM在金融预测中接近专业分析师水平,但仍有改进空间;深度研究代理易受伪造网站误导,强调安全性挑战;实时搜索能力对时效性事件预测至关重要,当前尚有不足。

FutureX以其动态、无污染和大规模的设计,为推动具备专业级复杂推理与预测能力的LLM代理研究树立了新标杆。

了解详情🔗 arxiv.org/abs/2508.11987

人工智能 大语言模型 未来预测 机器学习 智能代理 实时评测

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注