人工智能工具作为科学政策顾问，是潜力和陷阱？

大型语言模型和其他人工智能系统在为政策制定者综合科学证据方面可能非常出色，但前提是有适当的保障措施和人类参与。人工智能（AI）的最新进展引发了围绕大型语言模型（LLM）的狂热评论，例如ChatGPT等，这些模型可以生成文本以响应键入的提示。虽然这些工具可以使研究受益1，人们对这项技术普遍感到担忧——从失业和过度依赖人工智能援助的影响，到人工智能产生的虚假信息破坏民主国家。较少讨论的是，如何建设性地使用这些技术，以创建筛选和总结科学证据的工具，以便为决策。在世界各地，科学顾问充当知识经纪人，为总统、总理、公务员和政治家提供有关科学和技术如何与社会问题交叉的最新信息。从固态电池和抗生素耐药性到深海采矿，科学顾问必须灵活地浏览大量信息。他们必须挖掘每年发表的数百万篇科学论文，同时考虑来自倡导组织、行业和科学院的报告，每篇报告都有自己的看法。顾问必须快速工作——政策期限比学术界的期限更严格、更仓促。在数周、数天或有时数小时内生成政策摘要是一项艰巨的任务。政府制作和使用此类信息的压力越来越大。基于人工智能的工具可以提高科学顾问的能力，并帮助政策制定者维持生计。但是它们应该如何设计呢？人工智能会破坏严谨性吗？他们的产出会受到那些有议程的人的影响吗？而且，如果科学顾问使用人工智能工具，那么什么可以防止人工智能错误和影响公共政策决策的乱码“幻觉”？迫切需要回答这些问题。强大的语言模型已经广泛应用于研究和技术开发，通过商业化和开源，越来越多的用户可以使用越来越复杂的功能。政策制定者已经开始尝试公开可用的生成人工智能工具。美国的立法人员正在试验OpenAI的GPT-4，据报道，还有其他未经批准且可能不太可靠的AI工具。这导致美国众议院的管理人员在 3 月对聊天机器人的使用施加了限制我们的观点是，通过精心的开发和管理，新一代基于人工智能的工具可以在不久的将来提供大幅改进科学建议的机会，使其更加敏捷、严格和有针对性。但是，利用这些工具向善需要科学顾问和政策机构制定指导方针，并仔细考虑这项新兴技术的设计和负责任使用。在这里，我们探讨了生成式人工智能工具有望提供政策指导的两项任务——综合证据和起草简报文件——并强调了需要密切关注的领域。人工智能如何加速证据综合目前的证据搜索非常耗时，并且涉及大量的判断。压力巨大的科学顾问必须采取他们能得到的东西。但是，如果搜索可以更加算法化呢？两种主要方法用于综合政策证据：系统综述和全主题综合。两者都需要巨大的努力，并且需要数年才能运行。未来，基于人工智能的平台应该能够使这种综合不那么耗时，使主题专家能够专注于更复杂的分析方面。系统综述（如健康和医学领域的Cochrane综述）确定感兴趣的问题，然后系统地定位和分析所有相关研究以找到最佳答案（见 www.cochranelibrary.com）。例如，最近的一项审查检查了健康饮食计划在幼儿中是否成功的证据，发现它们可以，尽管不确定性仍然存在。主题范围证据综合的替代方法需要大规模阅读文献，例如，作为一个名为“保护证据”的生物多样性项目的一部分，大约70人花费了相当于大约50人年的时间阅读了150多万篇保护论文，并有17种语言的3689测试版。然后由专家小组宣读摘要，评估每项干预措施的有效性。从蝙蝠保护到可持续水产养殖等主题的概要在线发布（https://conservationevidence.com）。并行工具元数据集允许用户根据自己的需求定制meta分析人工智能模型可用于筛选科学文献，并为政策制定者提供最新知识。人工智能（AI）的最新进展引发了围绕大型语言模型（LLM）的狂热评论，例如ChatGPT等，这些模型可以生成文本以响应键入的提示。虽然这些工具可以使研究受益，人们对这项技术普遍感到担忧——从失业和过度依赖人工智能援助的影响，到人工智能产生的虚假信息破坏民主国家。较少讨论的是，如何建设性地使用这些技术，以创建筛选和总结科学证据的工具，以便为决策。在世界各地，科学顾问充当知识经纪人，为总统、总理、公务员和政治家提供有关科学和技术如何与社会问题交叉的最新信息。科学与人工智能新时代：自然特辑从固态电池和抗生素耐药性到深海采矿，科学顾问必须灵活地浏览大量信息。他们必须挖掘每年发表的数百万篇科学论文，同时考虑来自倡导组织、行业和科学院的报告，每篇报告都有自己的看法。顾问必须快速工作——政策期限比学术界的期限更严格、更仓促。在数周、数天或有时数小时内生成政策摘要是一项艰巨的任务。政府制作和使用此类信息的压力越来越大。基于人工智能的工具可以提高科学顾问的能力，并帮助政策制定者维持生计。但是它们应该如何设计呢？人工智能会破坏严谨性吗？他们的产出会受到那些有议程的人的影响吗？而且，如果科学顾问使用人工智能工具，那么什么可以防止人工智能错误和影响公共政策决策的乱码“幻觉”？迫切需要回答这些问题。强大的语言模型已经广泛应用于研究和技术开发，通过商业化和开源，越来越多的用户可以使用越来越复杂的功能。政策制定者已经开始尝试公开可用的生成人工智能工具。美国的立法人员正在试验OpenAI的GPT-4，据报道，还有其他未经批准且可能不太可靠的AI工具。这导致美国众议院的管理人员在 3 月对聊天机器人的使用施加了限制。控制人工智能的规则：各国为技术监管开辟了不同的道路我们的观点是，通过精心的开发和管理，新一代基于人工智能的工具可以在不久的将来提供大幅改进科学建议的机会，使其更加敏捷、严格和有针对性。但是，利用这些工具向善需要科学顾问和政策机构制定指导方针，并仔细考虑这项新兴技术的设计和负责任使用。在这里，我们探讨了生成式人工智能工具有望提供政策指导的两项任务——综合证据和起草简报文件——并强调了需要密切关注的领域。人工智能如何加速证据综合目前的证据搜索非常耗时，并且涉及大量的判断。压力巨大的科学顾问必须采取他们能得到的东西。但是，如果搜索可以更加算法化呢？两种主要方法用于综合政策证据：系统综述和全主题综合。两者都需要巨大的努力，并且需要数年才能运行。未来，基于人工智能的平台应该能够使这种综合不那么耗时，使主题专家能够专注于更复杂的分析方面。系统综述（如健康和医学领域的Cochrane综述）确定感兴趣的问题，然后系统地定位和分析所有相关研究以找到最佳答案（见 www.cochranelibrary.com）。例如，最近的一项审查检查了健康饮食计划在幼儿中是否成功的证据，发现它们可以，尽管不确定性仍然存在2。. 主题范围证据综合的替代方法需要大规模阅读文献3.例如，作为一个名为“保护证据”的生物多样性项目的一部分，大约70人花费了相当于大约50人年的时间阅读了1种语言的5多万篇保护论文，并总结了所有17,3种经过测试的干预措施。然后由专家小组宣读摘要，评估每项干预措施的有效性。从蝙蝠保护到可持续水产养殖等主题的概要在线发布。并行工具元数据集允许用户根据自己的需求定制meta分析. 工程师阿拉蒂·普拉巴卡尔（左）是美国总统乔·拜登的首席科学顾问。学分：莎拉·西尔比格/彭博社通过盖蒂机器学习越来越多地自动化搜索、筛选和数据提取过程，这些过程构成了系统综述的早期阶段。例如，诸如Semantic Scholar的TLDR功能之类的LLM可以总结大型文本语料库 - 这是筛选科学文献的便捷功能。人工智能工具在理解新兴研究领域可能特别有用，在这些领域可能缺乏评论论文和学科期刊。例如，自然语言处理技术可以系统地对人工智能本身的研究进行分类。6，图算法正被用于检测更广泛文献中新兴的研究“集群”（例如，参见 https://sciencemap.eto.tech）。尽管如此，评估数据质量和从收集的证据中得出结论通常需要人工判断。搜索、筛选和数据提取的自动化过程也有助于决策。AI 工具可以在称为解决方案扫描的过程中创建可能的选项列表.以减少入店行窃的政策为例。当提示列出潜在的政策选项时，ChatGPT 可以识别员工培训、商店布局和设计等主题。然后，顾问可以整理和综合这些领域的相关证据。这种快速评估将不可避免地错过一些选择，尽管它们也可能找到传统方法无法找到的其他选择。可信度的哪些方面最重要也可能有所不同，这取决于政策问题和背景。自动化还将解决另一个常见问题：语言技能有限。说英语的科学顾问很容易，因为它是科学的主要语言。但是，还有大量其他语言的政策相关文献。一次分析生物多样性保护文献显示，超过三分之一的论文以西班牙语、葡萄牙语、中文和法语等语言发表。用于证据综合的人工智能工具，加上日益强大的基于LLM的机器翻译，应该能够将全球信息交到顾问手中，否则他们将受到语言障碍的限制。为了实现人工智能在汇集证据方面无疑的潜力，同时尽量减少可能的弊端，必须考虑以下三个问题。一致性许多学术期刊使用标准化格式来报告研究结果，但跨学科之间存在很大差异。其他信息来源，包括工作文件、项目报告和国际机构、非政府组织和工业界的出版物，则更加不匹配。这种呈现方式的多样性使得很难开发完全自动化的方法来识别具体的发现和研究标准。例如，知道在哪个时期测量效应或样本有多大通常很重要，但这些信息可以隐藏在文本中。以更一致的方式呈现研究方法和结果可能会有所帮助。例如，在医学和生命科学研究中，Cell Press出版的期刊使用称为STAR方法的结构化报告格式。可信度科学顾问通过五种方式判断证据是否可信：研究结果的合理性（根据顾问的学科知识和对研究的评估进行评估）;作者的声誉;提交人机构的地位;该领域其他人的观点;以及同事和同行的观点。这种多方面的判断很难在人工智能工具中复制。发表指标，如影响因子和引用次数，被发现是衡量研究质量的不良指标9.可信度的哪些方面最重要也可能有所不同，这取决于政策问题和背景。专家们需要就研究质量标准达成一致，然后才能在基于人工智能的工具中实现自动化——这是一项艰巨的任务，尽管正在取得进展。数据库选择和访问目前，进行系统综述需要跨数据库（主要是专有数据库）进行搜索，以确定相关的科学文献。数据库的选择很重要，可能会对结果产生重大影响。但政府要求将资助的研究作为开放获取发布10,11可以更容易地检索研究结果。对于政府认为是资金优先事项的研究主题，取消付费墙将能够创建证据数据库并确保与版权法保持一致。随着出版商在其数据库中开发其他分析工具，他们也可能创建自己的证据综合工具，但这些工具将受到其覆盖范围的限制。此外，如果这些工具仅由私营部门开发，这可能会限制低收入和中等收入国家的政府获得这些工具，这些国家支付这些工具的能力最差，但最需要这些服务。因此，数据库的访问和互操作性以及政府协作是大规模自动化证据综合的重要基础。人工智能如何帮助起草政策简报的文本LLM的进步可能使科学顾问可以花更少的时间为决策者起草有用的产品，而花更多的时间编辑和制作它们。但是，还需要做更多的工作来测试此类系统的可靠性，并了解它们可能出错的地方。政策简报是科学建议的核心部分。以英国议会科学技术办公室（POST）和美国国会科学咨询机构：科学、技术评估和分析（STAA）为例，该机构位于政府问责办公室。这两个机构都编写关于科学和技术问题的简报（分别为POSTnotes和Spotlights），为广泛的决策者提供信息。为立法委员会工作的顾问可能会花费大部分时间起草问题，让委员会成员询问证人，并撰写总结研究证据的报告。我们不建议由基于LLM的工具完整地起草政策简报，但人工智能可用于促进部分过程。人力审查员和政策设计者在创建政策文件方面仍然发挥着重要作用，提供关键的质量控制，确保可信度、相关性和合法性。然而，随着生成式人工智能工具的改进，它们可用于提供离散部分的初稿，例如技术信息的通俗语言摘要或复杂的立法。在出版商爱思唯尔（Elsevier）的一项实验中，构建了一个LLM系统，该系统仅引用已发表的同行评审研究。尽管该系统设法制作了一份关于锂电池的政策文件，但挑战仍然存在。正如其他人所发现的那样，由此产生的文本平淡无奇，易于理解，反映了它来源的论文中的语言而不是原始综合，并且与所需的简报相去甚远。但是，该系统展示了一些重要的设计原则。例如，强迫它只生成引用科学来源的文本，确保由此产生的建议归功于被引用的科学家。不久之后，人工智能工具可能会为不同的受众制作定制的政策简报。POSTnote必须对来自各种政治，专业和社会背景的数百名政治家有用。但英国议会掌握着政治家的数据，包括他们的政治派别、投票记录、教育和专业背景，以及选区的人口和社会经济信息。下一代人工智能工具可以提供政治家著作的自动摘要以及对辩论和委员会工作的贡献，并为每个人量身定制科学简报。此外，这些工具可以利用决策者以前的工作作为培训数据集，例如，以决策者的声音向其选民介绍有关科学信息的问题的内容。假设英国议会委托POSTnote总结了有关COVID-19疫苗的最新研究。POST可以制作一个多层次的文件，而不是单一的出版物，自动为不同的政治家量身定制。例如，政治家可能会收到一个版本，其中强调了其选区中的人们如何为COVID-19科学或疫苗生产做出贡献。可以向他们提供关于本区域感染率的有针对性的信息。另一个维度可能是对疫苗如何工作的科学解释水平。精通科学的政治家可以获得专业知识;那些没有科学背景的人可以获得一个外行版本。技术细节的级别可以由读者自己调高或调低。起草政策说明需要进一步考虑五个问题。训练数据和模型研究人员已经表明，不同的语言模型在社会和经济方面都有不同的政治倾向。其中一些偏差是从训练模型的数据中获取的。然后，这些偏差可能会对模型在特定任务上的表现产生影响，例如检测仇恨言论和错误信息。13.其他形式的偏见包括种族、宗教、性别等。这些问题凸显出，用于科学建议的人工智能工具不能成为黑匣子——它们需要透明度和参与式设计过程。顾问和决策者应参与语料库的选择和培训过程，以确保产出被认为是合法的。循证决策和人工智能偏见的研究人员应该在系统广泛采用之前对其进行建议和测试。训练集和输入语料库需要由这些小组仔细审查，以确保输入建议的科学信息的质量，从而确保输出的可信度。用于协助咨询过程的算法需要完全透明且可解释，以确保问责制。统辖这些进程最好由拥有明确机制的机构来开展，以确保强有力的治理、广泛参与、公共问责制和透明度。例如，各国政府可以在当前努力的基础上再接再厉，例如美国“什么是有效的信息交换所”和英国的“什么是有效的网络”。或者，联合国科学及文化组织教科文组织等国际机构可以根据开放科学目标开发这些工具。应注意在所有收入水平的国家之间寻求国际合作。关键是不仅要确保向低收入国家提供这些工具和科学信息，还要确保持续发展符合国家和国际政策和优先事项的严格、公正的证据综合系统。假情報有人担心人工智能起草的出版物可能会淹没系统并污染预印本和期刊提交的数据库。14.同样的情况可能是来自基于人工智能的工具的政策信息的风险。在政治辩论中注入有偏见或捏造的信息——以看似科学的方式呈现——可能会造成混乱，并使人们对有争议的政策问题的看法有所改变。用虚假信息针对政策制定者可能是转移注意力和造成混乱的有效策略。虚假信息攻击对所有类型的在线系统构成威胁，而不仅仅是那些提供科学建议的系统，并且越来越成为研究和政策的重点15.确保用于产生科学建议的系统不受虚假信息或“数据中毒”攻击的影响，可能需要对培训数据和过程进行更多的监督和理解。这是一个整个部门的问题，但首先，协调和咨询机构（如美国科技政策办公室）应该与主要的研究资助者合作，发挥催化作用。数据隐私政策简报通常包含机密或其他敏感信息，例如国防采购的细节或公共卫生研究的结果草案，这些信息在获准公开传播之前需要保密。如果顾问使用公开可用的工具，如ChatGPT，他们可能会面临披露受限信息的风险——这个问题已经使政府和私营部门其他地方的人工智能模型部署变得复杂（见 go.nature.com/3rrhm67）。机构需要建立明确的指导方针，说明哪些文档和信息可以输入外部LLM，理想情况下，开发自己的内部模型，运行在安全服务器上。科学咨询专业人员需要接受人工智能用户技能的培训，例如提示LLM产生所需输出的最佳方式。即使是提示中语气和上下文的微小变化也会改变LLM用于生成响应的概率。顾问还需要接受培训，以避免不恰当地过度依赖人工智能系统，例如在就快速需要信息的新兴主题起草建议时。由于缺乏相关的培训数据，这些可能是LLM表现不佳的领域。科学顾问将需要对这些风险有细致入微的理解。后续步骤科学建议需要具有科学可信性、政治合法性和与决策者的需求相关。如果使用人工智能工具，情况必须保持不变。在短期内，随着政策制定者开始使用可用的工具——例如，给选民写演讲或写信——政府应该制定政策来预防已知风险。从长远来看，科学顾问的招聘、晋升和专业发展将需要人工智能素养。需要合作，以负责任的方式为科学建议构建人工智能工具。技术知识可能来自学术界和技术公司，而对健全治理、透明度和问责制的要求只能由政府来满足。学术界、企业界和政府之间的这种关系存在于许多领域，包括美国国家人工智能研究资源工作组等人工智能计划。这些问题应该在即将于2024月在英国米尔顿凯恩斯附近的布莱切利公园和20年<>月在伦敦举行的人工智能峰会上讨论。其他活动包括G<>首席科学顾问圆桌会议，以及由国际政府科学咨询网络和欧洲议会技术评估网络主办的主要会议。尽早考虑哪个部门发挥领导作用将非常重要，因为人们对更广泛的人工智能领域的监管捕获和政府能力表示担忧。可以在这些首脑会议上就这个问题和其他问题达成共识。我们仍然需要老式的智能来充分利用人工智能。

世良情感网

人工智能工具作为科学政策顾问，是潜力和陷阱？

米言看科技