本文转自:DeepTech深科技微信公众号
近日,根据近年来大语言模型在信息整合和推理方面的强大能力,以及人类科学家提出新的科学假设时需要的大量人力、物力资源和时间成本,来自美国芝加哥大学的一支课题组提出一套利用大模型来做生成科学假设的新型科研辅助工具。传统的假设生成方法大致可以分为两类:第一种是理论驱动方法:通过回顾现有文献生成假设。这种方法通常能产生新颖、有效且对研究者有用的假设,同时是基于已有的科学知识。其局限性在于:依赖高质量的文献、难以适应新数据、缺乏现实数据支持。第二种是数据驱动方法:通过发现数据中的规律生成假设。这种方法能适应新的数据并在解释数据方面表现出色。其局限性在于:往往过于依赖特定数据集,可能导致泛化能力不足。当前这两类方法各有优劣,但尚未有人探索两者是否可以互补。因此,本研究提出整合文献和数据的假设生成方法,以弥补单一方法的不足。
(来源:arXiv)
据介绍,本研究旨在解决以下问题:其一,研究理论与数据结合的可能性:探讨是否可以通过整合文献中的洞见与数据中的模式,生成更全面、更有效的假设。其二,提升假设生成的泛化能力和实用性:通过结合文献和数据,生成更适合多种任务的高质量假设。其三,验证 AI 生成假设对人类决策的帮助:验证 AI 生成的假设在检测虚假/欺骗性信息和 AI 生成内容检测等任务中,是否能够提升人类决策的准确性。研究中,该团队提出了首个将文献信息与现实观察数据结合之后,使用大模型驱动假设生成的方法,并开发出一种协作机制,让文献驱动和数据驱动方法在假设生成和更新过程中互相补充。其还提出了两种整合策略:第一种策略是精炼生成:在数据驱动生成的假设基础上加入文献洞见,通过多轮迭代提高假设质量。第二种策略是合并生成:其能分别生成基于文献和数据的假设集,并在消除冗余后进行合并。在五个数据集上的大模型推理实验显示,整合文献和数据的假设生成方法在泛化能力上显著优于其他传统方法:比基于例子的学习方法提高 8.97%;比仅基于文献的方法提高 15.75%;比仅基于数据的方法提高 3.37%。在两项人类评估实验中,AI 生成的假设显著提高了人类决策准确性:在虚假/欺骗性信息检测任务中提高了 7.44%;在 AI 生成内容检测任务中提高了 14.19%。同时,文献驱动和数据驱动方法提供了互补的信息,一个方法生成的假设中常包含另一个方法无法提供的新信息。假设生成可以不仅帮助模型提高大模型的预测性能,还能为人类决策提供实用的指导。总的来说,该项研究首次提出将文献洞见与数据模式结合的假设生成方法,填补了理论驱动与数据驱动方法结合的空白。同时,本次方法设计全面且实用,能够生成泛化性强且质量高的假设。此外,实验设计严谨,覆盖五个数据集,并结合自动评估与人类评估验证了方法的有效性,尤其在人类评估中展示了显著提升决策能力的潜力。理论上,本成果能被用于任何基于数据分析或观测现实数据的科学领域,包括但不限于生物学、化学、医疗、神经科学、环境与地质科学、商业分析和经济学等。它为科研工作者提供了一个强有力的辅助工具,不仅能够显著减少提出新科学假设所需的资源和时间成本,还能提升假设的质量和泛化能力。实践中,该成果还具有更广泛的潜在应用,例如帮助优化教学方法、改进医疗诊断与治疗方案、支持商业与政策决策、提升人工智能模型的解释性与性能,以及推动跨学科研究的创新等。
图 | 刘昊琨(来源:刘昊琨)
日前,相关论文以《文学与数据相遇:生成假设的协同方法》(Literature Meets Data: A Synergistic Approach to Hypothesis Generation)为题发在 arXiv[1],美国芝加哥大学博士生刘昊琨是第一作者。
图 | 相关论文(来源:arXiv)
本次假设生成方法虽然是现阶段最全面并且拥有最好的评估结果,但这类研究整体还属于初步阶段。研究人员无法回答“什么是最好的自动化验证假设的方法”,或“能不能证明这些生成的假设能真正推动各个领域的科研”这类问题。所以,该团队正在考虑设计一套完善的假设生成的 benchmark,或者尝试与社科领域的专家合作,利用他们生成的假设来开展新的科研项目。通过此,希望能够完善各个模块,让文献搜索和整理模块可以实现自动化。
参考资料:
1.Liu, H., Zhou, Y., Li, M., Yuan, C., & Tan, C. (2024). Literature meets data: A synergistic approach to hypothesis generation. arXiv preprint arXiv:2410.17309.
运营/排版:何晨龙