FutureX:首个面向LLM代理的实时未来预测大规模基准测试
• 任务难度高,要求代理具备复杂分析、信息整合、上下文理解与不确定性决策能力,模拟人类专家在政治、经济、金融等领域的预测思维。
• 数据规模大且多样,涵盖195个权威网站,领域包括政治、经济、金融、体育、科技、文化、健康等,确保全面跨域评测。
• 实时动态更新,采用自动化流水线每日采集未来事件问题、执行预测并在事件结果公布后自动抓取真相进行评分,彻底避免数据污染与历史信息泄露。
• 评测体系丰富,涵盖25款模型,囊括基础LLM、具备搜索推理能力的Agent、开源及闭源深度研究代理,系统分析模型在不同难度层级及领域的表现与弱点。
• 设计四个难度等级,从简单选择到高波动开放式预测,全面考察模型的规划、推理和搜索能力,尤其强调复杂多步推理和不确定性下的前瞻性判断。
• 实验发现:具备搜索与推理能力的模型显著优于单纯基础模型;顶尖模型如Grok-4在高难度任务表现突出;LLM代理尚未超越专业人类分析师,但在部分任务显示出超越人类的潜力。
• 特殊分析展示LLM在金融预测中接近专业分析师水平,但仍有改进空间;深度研究代理易受伪造网站误导,强调安全性挑战;实时搜索能力对时效性事件预测至关重要,当前尚有不足。
FutureX以其动态、无污染和大规模的设计,为推动具备专业级复杂推理与预测能力的LLM代理研究树立了新标杆。
了解详情🔗 arxiv.org/abs/2508.11987
人工智能 大语言模型 未来预测 机器学习 智能代理 实时评测