科学家设计新型大模型微调方法，可用于金融、科学等领域

图数据是一种遍布于微观世界（如蛋白质、细胞、化学分子）和宏观世界（如知识图谱、金融交易网、社交网络）的数据类型。相较于传统意义上的图片、音频和视频，它具有自己独特的几何结构。

而在深度学习或人工智能领域以图数据为基础的一类方法，则被叫做图基础模型。

近年来，人工智能技术的快速发展，推动图基础模型在多个领域获得广泛应用，并取得令人瞩目的进展。

尽管如此，截至目前，其依旧存在决策不可靠、推理不稳定、模型不透明、模态不对齐、价值不以人为本等诸多可信任危机。

中国科学技术大学王翔教授的研究着眼于“可信赖的图基础模型”。他秉持着“以人为本”与“技术向善”的信念，围绕增强图基础模型的“精确性-泛化性-可解释性-价值对齐”这一完整科学链条开展研究，助力这类模型更好地应用于科学、金融等关键领域。

具体来说：

针对精确性，他将图基础模型引入个性化推荐场景，与协同过滤、知识图谱等进行有机结合，大幅提高了个性化推荐的准确度。

针对泛化性，他将因果推理引入泛化机制，捕捉开放环境里多变分布中稳定不变的因果性，提升图基础模型的泛化鲁棒性。

针对可解释性，他探索知识驱动的“事前-事中-事后”全周期解释框架，突破纯数据驱动下的黑盒瓶颈。

针对价值对齐，他在考虑图数据-语言大模型存在的模态差异和人机价值差异的基础上，设计了面向模态对齐和偏好对齐的微调方式，开发了以 2D 图、3D 图、图交互为核心的多模态 AI for Science 大模型，促使大模型能够可信地理解、生成化学分子与蛋白质。

凭借聚焦于“可信赖的图基础模型”这一领域，在推荐大模型方向实现了对人类行为和价值观的可信建模与对齐，在生化大模型方向实现了对化学分子和蛋白质的可信理解与生成，王翔成为 2023 年度《麻省理工科技评论》“35 岁以下科技创新 35 人”中国入选者之一。

开发模态对齐微调方式与鲁棒偏好学习方法，攻克图基础模型可信任危机

当下，那些仅利用纯文本数据训练而成的大模型，只能理解和生成文本，无法理解和生成图片、视频、图数据等其他模态的数据，这就会导致模态不对齐问题的出现。

在这种情况下，当我们向大模型输入一个知识图谱或一个化学分子，并向它提问相关问题时，它给出的回答在大多数时候既不靠谱，又容易出错。

为解决这一问题，王翔与合作者提出了一种面向模态对齐的微调方式。

从技术上看，该方法主要分为三步。

第一步，收集数据。比如，在给定一个化学分子的前提下，需要收集与它相关的化学活性、结构属性等一系列文本数据。

第二步，进行表征学习。将此前收集到化学文本数据，投影到大模型的语言空间中。

第三步，为大模型设计一些具有条件性质的损失（loss），并基于此进行微调，从而让大模型获得理解多模态数据的能力。（编者注：在人工智能领域，损失（loss）这一概念主要用来评估模型预测值与真实值之间的差距。）

“在此基础上，我们再把扩散模型嫁接到大语言模型上，让它具备生成化学分子和化学结构的能力。”王翔表示。

据他介绍，目前这套范式已经在化学分子大模型和推荐系统大模型上得到验证，既能很好地处理和生成化学分子和蛋白质等图数据，又可以实现对人类行为和价值观的可信建模与对齐。

如上所说，价值不以人为本，也是图基础模型面临的一种可信任危机，并且在现有的大模型场景中异常突出。

“由于人类价值观包含的范围非常广泛，因此由图基础模型生成的内容，既可能与人类的偏好不一致，又可能与人类的价值观相违背。”王翔表示。

那么，出现这种情况的背后原因是什么呢？

“该领域的研究者目前也在探讨这背后的机理。我个人认为是大模型以数据驱动为主的训练范式导致的。简单来说，大模型在训练过程中，仅仅机械式地拟合人类创造的所有数据，这就造成一些代表破坏性和偏见性的噪声数据也会被大模型吸收。”王翔解释道。

而为克服这个问题，王翔与合作者提出了一种鲁棒偏好学习方法，能够优化大模型的训练过程，从噪声数据中寻找符合人类价值和行为的偏好数据，进而帮助大模型做出可信的预测和决策。

具体来说：

在第一个算法中，他们通过设计一种新的 loss，即增加一个分布鲁棒优化（DRO，Distributionally Robust Optimization）算法的项，就能实现在偏好数据中去除噪声使偏好更加鲁棒的目标。

在第二个算法中，他们设计一种直接偏好优化（DPO，Direct Preference Optimization）算法，通过动态地调整其中的贝塔参数，让模型可以自动地选择那些高质量的用户偏好数据。

值得一提的是，研究人员之所以能够开发出这种鲁棒偏好学习方法，很大程度上得益于在大模型诞生之前，他们曾研究过大模型的鲁棒性增强这一问题，并从理论上证明了 DRO 和 DPO 之间存在一种极强的关系。

正是基于上述方法，王翔有效地推动了大模型在金融和科学等领域的可信应用。

“在金融领域，我更关注面向网络用户的个性化推荐，希望帮助用户更快更智能地找到自己想要的信息，或购买需要的商品。”王翔说。

在这方面，他和团队开发了一款名为 LLaRA[1] 的大型语言推荐助手，能够在理解用户过去行为偏好的前提下，为其推荐更加精准的个性化内容。

在科学领域，他和团队首先开发了分子图-语言建模方法 MolCA[2]，能够帮助大模型理解 2D 结构的化学分子，并完成相关问答和性质预测等任务。

在此基础上，他们又提出三维分子语言建模方法 3D-MoLM[3]，让大模型可以实现对 3D 分子结构的解析和分析。

计划探索智能体博弈技术，让大模型为人类决策提供有效推演和辅助

据王翔介绍，他成长于山西省的一个普通县城，父母都在严谨且规律的银行系统工作，并给予他略显严肃但充满爱与温馨的家庭氛围。

“正是这样的家庭与成长环境，让我从小在稳定、自律的表层下，养成了一种隐性的‘叛逆’内核，也在无形中塑造了我面对科研工作时的思维模式，即大部分时候‘按部就班’，但在一些关键问题上‘遵从内心’。”王翔说。

2010 年，他考入北京航空航天大学计算机科学与技术专业；2014 年至 2019 年间，在新加坡国立大学人工智能实验室 NExT++ 完成博士学业，师从蔡达成（Chua Tat-Seng）教授。

正是在博士阶段，他接触到当时已成燎原之火的人工智能，并选择智能信息推荐与可信图深度学习，作为自己的研究方向。

博士毕业后的三年时间里，他继续在该实验室从事博后研究。

2022 年，他以国家高层次青年人才身份入职中国科学技术大学，担任教授和博士生导师。

现阶段，除了专注于图基础模型研究，他也将目光放到了探索大模型驱动的智能体博弈技术。

“从智能体的合作模式出发，我们可以想象在一个沙盒或一个虚拟世界中，有 N 个智能体存在。其中，每个智能体可以自主地完成一些任务，它们的输入和输出之间不会产生任何交集。并且，它们也可以通过合作或非合作的方式，来实现某个共同的目标。”王翔解释道。

具备上述能力的智能体，足以理解以及模拟复杂的博弈场景，譬如经济市场、社会互动等，以提高模型在现实世界应用中的准确性和可靠性。

例如，可以通过打造一个沙盒世界，让智能体在其中扮演每一个真实人类。研究者可以在智能体上施加一些社会性实验，并观察他们的所作所为会对这个沙盒世界产生哪些影响。推演出的最终结果，则有助于为真实世界的人类决策带来可信性较高的辅助参考。

在这方面，他提出了一种基于推荐场景的用户模拟器 Agent4Rec[4]，评估了由大模型赋能的生成式智能体，能在多大程度上忠实模拟推荐系统中真实、自主的人类行为。

不过，王翔也指出：“由于当下智能体的发展势头方兴未艾，因此我们目前正处于大量的探索和验证中。”

参考资料：

1.Liao J, Li S, Yang Z, et al. Llara: Large language-recommendation assistant.Proceedings of the 47th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2024: 1785-1795.https://doi.org/10.48550/arXiv.2312.02445

2.Liu Z, Li S, Luo Y, et al. MolCA: Molecular graph-language modeling with cross-modal projector and uni-modal adapter.arXiv:2310.12798.https://doi.org/10.48550/arXiv.2310.12798

3.Li S, Liu Z, Luo Y, et al. Towards 3d molecule-text interpretation in language models. arXiv:2401.13923.https://doi.org/10.48550/arXiv.2401.13923

4.Zhang A, Chen Y, Sheng L, et al. On generative agents in recommendation.Proceedings of the 47th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2024: 1807-1817.https://doi.org/10.48550/arXiv.2310.10108

运营/排版：何晨龙