重磅Nature！GPT-4来抢“饭碗”了！

基于Transformer的大型语言模型正在各个领域取得重大进展，如自然语言处理、生物、化学和计算机编程等。

在此，来自美国卡耐基梅隆大学的Gabe Gomes等研究者展示了Coscientist的发展和能力，这是一个由GPT-4驱动的人工智能系统，通过结合互联网和文档搜索、代码执行和实验自动化等工具授权的大型语言模型，自主地设计、计划和执行复杂的实验。相关论文以题为“Autonomous chemical research with large language models”于2023年12月20日发表在Nature上。

大型语言模型(LLMs)，特别是基于Transformer的模型，近年来正经历快速发展。这些模型已成功应用于各种领域，包括自然语言、生物和化学研究以及代码生成。如OpenAI所示，模型的极端扩展已经导致了该领域的重大突破。此外，从人工反馈中强化学习等技术可以大大提高生成文本的质量，以及模型在推理其决策的同时执行不同任务的能力。

2023年3月14日，OpenAI发布了迄今为止最强大的LLM, GPT-414。尽管关于模型训练、大小和使用的数据的具体细节在GPT-4的技术报告中有所限制，但OpenAI研究人员已经提供了大量证据，证明该模型具有非凡的解决问题的能力。这些包括但不限于SAT和BAR考试的高分数，LeetCode挑战和图片的上下文解释，包括小众笑话。此外，技术报告提供了一个如何使用该模型解决化学相关问题的例子。

同时，化学研究的自动化也取得了重大进展。例子从有机反应的自主发现和优化到自动化流程系统和移动平台的开发。实验室自动化技术与强大的LLMs的结合，为自主设计和执行科学实验的受欢迎系统的开发打开了大门。

为了实现这一点，研究者打算解决以下问题。LLMs在科学过程中的能力是什么?研究者能获得多大程度的自主?研究者如何理解自主智能体所做的决策? 在此，研究者提出一个基于multi-LLMs的智能代理(以下简称Coscientist)，能够自主设计、规划和执行复杂的科学实验。Coscientist可以使用工具浏览互联网和相关文档，使用机器人实验应用程序编程接口(APIs)并利用其他LLMs完成各种任务。

这项工作是独立完成的，并与自主代理的其他工作并行进行，ChemCrow是化学领域的另一个例子。本文在六个任务中展示了联合科学家的通用性和性能：

(1)使用公开可用的数据规划已知化合物的化学合成；

(2)在大量硬件文档中高效搜索和导航；

(3)在云实验室中使用文档执行高级命令；

(4)低指令精确控制液体处理仪器；

(5)解决需要同时使用多个硬件模块和集成不同数据源的复杂科学任务；

(6)解决需要分析先前收集的实验数据的优化问题。

图1. 系统的架构

Coscientist通过与多个模块交互(web和文档搜索，代码执行)和执行实验来获得解决复杂问题所需的知识。主模块(' Planner ')具有规划的目标，通过调用以下定义的命令来基于用户输入进行规划。规划器是一个GPT-4聊天完成实例，充当助手的角色。初始用户输入和命令输出被视为发送给规划器的用户消息。规划器的系统提示(定义LLMs目标的静态输入)以模块化方式设计，描述为定义动作空间的四个命令:`谷歌`，` PYTHON `， ` DOCUMENTATION `和` EXPERIMENT `。

计划者根据需要调用这些命令来收集知识。谷歌命令负责使用` Web searcher `模块搜索互联网，这是另一个LLM本身。PYTHON命令允许规划器使用“代码执行”模块执行计算，为实验做准备。EXPERIMENT命令通过DOCUMENTATION模块描述的API实现“自动化”。与谷歌一样，DOCUMENTATION命令从源向主模块提供信息，在本例中是关于所需API的文档。本文展示了与Opentrons Python API和Emerald Cloud Lab (ECL)符号实验室语言(SLL)的兼容性。这些模块共同组成了Coscientist，它从用户那里接收一个简单的纯文本输入提示(例如，“执行多个Suzuki反应”)。这种架构如图1所示。

图2. 协同科学家在化学合成计划任务中的能力

为了演示Web搜索模块的功能之一，研究者设计了一个由7种化合物组成的测试集来合成，如图2a所示。Web搜索器模块的版本分别表示为` search-gpt-4 `和` search-gpt-3.5-turbo `。研究者的基线包括OpenAI的GPT-3.5和GPT-4, Anthropic的Claude 1.3和Falcon-40B-Instruct，根据OpenLLM排行榜，这些模型在实验时被认为是最好的开源模型之一。研究者提示每个模型提供详细的化合物合成，并将输出按以下比例进行排序(图2)：

5非常详细和化学精确的程序描述

4用于详细和化学准确的描述，但没有试剂的数量

3一个正确的化学描述，不包括一步一步的过程

2极其模糊或不可行的描述

1不正确的回答或不遵守指示

由GPT-4驱动的Web搜索器在综合规划方面有显著改进。在对乙酰氨基酚、阿司匹林、硝基苯胺和酚酞的所有试验中，它达到了最高得分(图2b)。尽管它是唯一一个对布洛芬达到最低可接受分数3的模型，但它对乙酸乙酯和苯甲酸的表现低于其他一些模型，可能是因为这些化合物的广泛性质。这些结果表明，让LLMs搁浅以避免“幻觉”的重要性。总的来说，支持GPT-3.5的Web搜索器的性能落后于它的GPT-4竞争对手，主要是因为它没有遵循关于输出格式的具体说明。

图3. 文档搜索概述图4. 机器人液体处理控制能力和与分析工具的集成

获取文档使人们能够为联合科学家在物理世界中进行实验提供足够的信息。为了展开调查，研究者选择了Opentrons OT-2，这是一个开源的液体处理程序，具有文档齐全的Python API。文档中的“入门”页面在系统提示中提供给规划师。其他页面使用上述方法向量化。

图5. 交叉耦合铃木和Sonogashira反应实验由Coscientist设计和执行

通过使用来自互联网的数据，执行必要的计算，并最终为液体处理程序编写代码，评估了Coscientist计划催化交叉耦合实验的能力。为了增加复杂性，研究者要求Coscientist使用在GPT-4训练数据收集截止后发布的OT-2加热-摇动模块。提供给联合科学家的可用命令和动作如图5a所示。尽管研究者的设置还不是完全自动化的(板块是手动移动的)，但不涉及人工决策。联合科学家复杂化学实验能力的测试挑战设计如下：(1) Coscientist提供一个配备有两个微孔板(源板和目标板)的液体处理器。(2)源板包含多种试剂的原液，包括苯乙炔和苯硼酸，多种芳基卤化物偶联剂，两种催化剂，两种碱和溶解样品的溶剂(图5b)。(3)靶板安装在OT-2加热-摇床模块上(图5c)。(4)联合科学家的目标是在现有资源的情况下，成功设计并执行Suzuki-Miyaura和Sonogashira耦合反应协议。

图6. 化学推理能力

本研究通过Coscientist系统展示了在化学实验设计中的高级推理能力。研究重点放在使用Coscientist优化Pd催化反应的多变量设计。图6a介绍了Suzuki反应数据集的应用，涉及不同配体、试剂和溶剂。图6e则展示了Buchwald–Hartwig反应数据集，记录了配体、添加剂和碱的变化。Coscientist的测试被设计为一款游戏，目标是最大化反应产率。玩家需以JSON格式提供特定反应条件和化学解释。

图6b使用归一化优势度量来评估Coscientist的性能，显示了其在每次迭代中的推理能力提高。图6c对比了提供先验信息与否的GPT-4和GPT-3.5的性能。结果表明，提供先验信息的GPT-4在初始猜测上更优，但最终性能相同。

图6d的导数图表显示输入先验信息与否之间没有显著差异。与标准的贝叶斯优化相比，基于GPT-4的方法展示出更高的NMA和归一化优势值。图6e比较了没有先验信息的GPT-4在处理化合物名称或SMILES字符串时的性能，两种情况下性能相似。

总结来说，Coscientist在化学实验设计和优化中展现了出色的推理能力和数据处理方法，其性能在多个测试中得到了证实。

综上，研究者提出了一个能够(半)自主设计、规划和多步执行科学实验的人工智能代理系统的概念证明。该系统展示了先进的推理和实验设计能力，解决了复杂的科学问题并生成了高质量的代码。当LLMs获得相关研究工具，如互联网和文档搜索、编码环境和机器人实验平台时，这些能力就会出现。为LLMs开发更集成的科学工具有可能大大加速新发现。

未来，正在加速到来，留给“化学人”的时间不多了！

参考文献

Boiko, D.A., MacKnight, R., Kline, B. et al. Autonomous chemical research with large language models. Nature 624, 570–578 (2023). https://doi.org/10.1038/s41586-023-06792-0

世良情感网

华算科技