2024 年 11 月

新的发现黄金时代

抓住科学领域的 AI 机遇

康纳·格里芬，丹·瓦勒斯，乌尔多·马特奥-加西亚，哈 anna·施维奇，普什特梅特·科希尔

引言

全球实验室正酝酿着一场悄无声息的革命，科学家们对 AI 的使用正在以指数增长。目前，每三位博士后中有一人使用大语言模型来辅助文献综述、编程和编辑。10 月，我们的 AlphaFold 2 系统开发者 Demis Hassabis 和 John Jumper 因利用 AI 预测蛋白质结构而与 David Baker 一起获得了诺贝尔化学奖。社会很快将直接感受到这些好处，AI 正在帮助设计药物和材料。

在这篇论文中，我们探讨了人工智能如何从基因组学到计算机科学再到天气预报领域的转变。一些科学家正在训练自己的 AI 模型，而另一些人则在微调现有模型或利用这些模型的预测来加速研究。科学家们正在利用人工智能作为科学工具，帮助解决重大问题，如设计更紧密地结合到疾病靶标上的蛋白质。同时，他们也在逐渐改变科学实践的方式。

科学家们拥抱人工智能的背后，有一个日益增长的紧迫需求。在过去几十年里，科学家们一直在不断取得突破性进展，从新冠疫苗到可再生能源。但要实现这些突破并将其转化为实际应用，需要越来越多的研究人员和将其转化为下游应用。因此，尽管过去半个多世纪内科学人才队伍显著增长，美国增长了 7 倍，社会进步却放缓。例如，全球许多地方都见证了 productivity 增长的持续减速，这正在削弱公共服务的质量。 2030 年可持续发展目标的进展停滞不前。

特别是，科学家们在今天寻找突破性进展时，越来越遇到与规模和 复杂性 有关的挑战。他们需要掌握不断增长的文献基础，以及日益复杂的实验。现代深度学习方法特别适合解决这些规模和复杂性挑战AlphaFold 蛋白质结构数据库提供了免费的 2 亿个预测蛋白结构的即时访问。

人工智能对科学的潜在好处并非确定。许多科学家已经开始使用 LLM-驱动的工具来辅助日常任务，如编程和编辑，但使用 AI 驱动的研究方法的科学家比例仍然很低，尽管正在迅速增长。在急于应用 AI 的过程中，一些早期的应用案例存在值得质疑的影响。政策制定者可以加速 AI 的应用并引导其发展至更高影响力的方向。最近，美国能源部（US Department of Energy）、欧盟委员会（European Commission）、英国皇家学会（UK’s Royal Society）和美国国家科学院（US National Academies）等机构已认识到 人工智能科学 的机会。但至今没有一个国家已经制定出全面的策略来实现这一目标。

我们希望这篇论文能为这样的策略提供指导。它面向那些制定和影响科学政策、资金决策的人。首先，我们识别了五个领域，这些领域对使用人工智能的需求正在日益增长，并探讨了这些领域的突破所需的关键成分。然后，我们探讨了最常被引用的使用 AI 的科学风险，如科学创造力和可靠性，并认为 AI 最终在每个领域都有益处。我们提出四个公共政策建议，以推动人工智能科学的新黄金时代。

在本文中，我们引用了来自我们 AI 科学项目专家的超过 24 次访谈，以及外部专家的意见。文章自然地反映了我们的立场，作为一家私营实验室。我们认为我们的论点对整个科学领域都具有普遍性。我们希望读者通过分享他们对最重要的 AI 科学机会、原料、风险和政策建议的看法来回应。

Part A

机会

科学家们致力于理解、预测和影响自然和社会世界的运作，以激发好奇心并解决社会面临的重要问题。技术和方法，如显微镜、X 射线衍射和统计学，都是科学的成果，并为科学提供了工具。在过去的一百多年里，科学家越来越依赖这些仪器来开展实验和推进理论。计算工具和大规模数据分析变得尤为重要，这使得从发现希格斯玻色子到绘制人类基因组图等一切成为可能。从某种角度看，科学家对人工智能的日益使用是这一长期趋势的合理延伸。但这也可能预示着科学能力的重大飞跃——一种前所未有的界限突破。

与其列出所有可能使用 AI 的领域，我们更强调五个必要应用 AI 的机会。这些机会涵盖多个学科，并解决科学家在科学过程中日益面临的一个瓶颈，即规模和复杂性。

This image shows five icons, one for each opportunity: knowledge, data, experiments, models, solutions. — 这五个机会适用于科学中的 AI，涵盖多个领域。它们分别解决了规模和复杂性等瓶颈。

1. 知识

改变科学家如何消化和交流知识的方式

为了发现新事物，科学家需要掌握一个不断增长、日益专业的知识体系。 “知识负担” 解释了为什么科学家不断进行变革性的发现，越来越年长、跨学科，并且大多位于顶尖大学，而个人或小团队发表的论文比例正在下降，尽管小团队通常更适当地推进颠覆性科学想法. 在分享研究时，出现了许多积极的创新，比如预印本服务器和代码库。然而，大多数科学家仍然以密集、术语多、英语为主的论文来发布他们的发现。这反而会阻碍科学家工作对政策制定者、企业以及公众的兴趣。

科学家们已经开始使用大语言模型（LLM），以及基于 LLM 的早期科学助手，来应对这些挑战，例如通过整合文献中的关键见解。在早期的演示中，我们的科学团队使用了我们的 Gemini LLM 来发现、提取和填充从 20 万篇相关论文中选择的特定数据，在一天内完成。即将出现的创新，如在更科学数据上微调大语言模型、以及长上下文窗口和引用使用方面的进步，将逐步提升这些能力。随着我们进一步探讨，这些机会也存在风险。但它们为根本性地重新思考某些科学任务提供了一个窗口，例如‘读’或‘写’一篇科学论文在世界中，科学家可以使用 LLM 来批判它、调整其对不同受众的影响，或将其转化为交互式论文或音频指南。

2. Data

生成、提取和标注大型科学数据集

尽管有流行叙事称数据丰富，但大多数自然和社会领域（如土壤、深海和大气，以及非正式经济）缺乏科学数据。AI 可以在不同方面发挥作用。例如，通过减少 DNA 测序中可能出现的噪声和错误，或样本中的细胞类型检测或捕捉动物声音等方法来提高现有数据收集的准确性。科学家们也可以利用大语言模型（LLM）在图像、视频和音频方面的能力，从科学文献、档案馆和不太显而易见的资源中提取 未结构化 的科学数据，并将其转化为结构化的数据集。

AI 也可以帮助标注科学数据，提供科学家需要的详细信息，以便使用这些数据。例如，至少三分之一的微生物蛋白质未能可靠地注释有关于它们执行功能的信息。2022 年，我们的研究人员利用 AI 预测了蛋白质的功能，这导致了 UniProt,Pfam,和InterPro 数据库的新条目。一旦验证，AI 模型也可以成为新的合成科学数据来源。例如，我们的 AlphaProteo 蛋白质设计模型基于 AlphaFold 2 的超过 1000 万个 AI 结构和 Protein Data Bank 的实验结构训练。这些 AI 机会可以补充和提升其他重要任务，如数字化档案，或资助新的数据捕获技术与方法，例如单细胞基因组学正在开展的工作，以创建前所未有的细胞数据集。

3. 实验

模拟、加速和告知复杂实验

许多科学实验昂贵、复杂且耗时。有些实验因无法获得所需设施、参与者或输入而无法进行。核聚变是一个典型案例。它提供了一个几乎无限的能源来源，排放量为零，能够推动能源密集型创新的发展，如海水淡化等。要实现核聚变，科学家需要创造和控制 等离子体 - 四种基本状态之一。然而，所需设施的建设非常复杂。 ITER 的原型 tokamak 反应堆于 2013 年开始建设，但等 plasma 实验最早在 2030 年中期开始，尽管其他机构希望能在较短的时间内建造更小的反应堆。

AI 可以帮助模拟融合实验，从而提高后续实验的效率。一种方法是让强化学习代理在物理系统模拟中运行。2019 年到 2021 年间，我们的研究人员与苏黎世联邦理工学院合作，演示如何利用 RL 控制 tokamak 火力堆中的等离子体形状。这些方法也可以应用于其他实验设施，如粒子加速器、望远镜阵列或引力波探测器。

使用 AI 模拟实验在不同学科中将会有显著差异，但一个共同点是，模拟通常会指导而非替代物理实验。例如，普通人的 DNA 中有超过 9,000 个突变非编码 基因变异。这些遗传变异大多数是良性，但一些可以影响蛋白质的功能，导致罕见的遗传疾病如囊性纤维病以及常见的癌症。测试这些变异的影响通常只涉及单一蛋白质。我们的 AlphaMissense 模型可以将 7100 万个潜在的有害突变分类为有害或良性，帮助科学家专注于最可能对疾病起作用的突变。

Diagram of AlphaMissense predictions and human annotations — AlphaMissense 预测了所有可能的 7100 万个突变的致病性。它分类了 89% - 预测出的 57% 是良性的，32% 是致病性的。

4. Models

模型复杂系统及其组件之间的相互作用

在 1960 年的论文中，诺贝尔奖得主物理学家 Eugene Wigner 意想不到数学方程在描述重要自然现象方面（如行星运动）的“不合理的有效性”。然而，在过去 50 年里，依赖于方程集或其他确定性假设的模型难以捕捉生物学、经济学、天气等领域的复杂系统。这反映了这些系统中相互作用的众多部分，以及它们的动态性和可能产生的随机或混沌行为。建模这些系统的挑战阻碍了科学家预测和控制其行为的能力，包括在冲击或干预期间，如温度升高、新药物引入或税收变化等。

AI 可以通过获取更多关于这些复杂系统的数据，并学习更强大的模式和规律，从而更准确地建模。例如，现代天气预报是科学与工程的胜利。对于政府和行业来说，它涵盖了从可再生能源规划到应对飓风和洪水的所有事情。对公众来说，天气是 Google 搜索中最受欢迎的非品牌查询。传统的数理预测方法是基于精心定义的物理方程，这些方程提供了对大气复杂动态的非常有用但不完美的近似。它们还计算成本较高。2023 年，我们发布了一个深度学习系统，该系统可以预测天气条件超过 10 天，其准确性和预测速度超过了传统模型。随着我们对以下内容的扩展，使用 AI 预测天气变量也能帮助缓解和应对气候变化。例如，当飞行员飞过潮湿区域时，可能会产生 湿滞现象 ，这些现象加剧了航空业的全球变暖影响。Google 科学家最近使用了 AI 来预测湿气区域的出现时间与位置，以帮助飞行员避免穿过这些区域。

在很多情况下，AI 会丰富传统方法，而不是完全取代它们。例如，代理建模模拟了个体之间的互动，如企业与消费者的行为，以了解这些互动如何影响更复杂的大系统如经济。传统方法要求科学家事先指定计算代理的行为方式。我们的研究团队最近提出了科学家们可以利用大语言模型创建更灵活的生成式代理，这些代理能够进行交流和行动，如搜索信息或购买商品，并且能进行推理和记忆这些动作。科学家们也可以利用强化学习来研究这些代理在更动态的模拟中如何学习和调整行为，例如应对新能源价格或疫情应对政策的变化。

5. 解决方案

识别在大搜索空间中解决问题的新方案

许多重要的科学问题都有无数种可能的解决方案。例如，生物学家和化学家们试图确定蛋白质等分子的结构、特性及其功能。这类工作的一个目标是帮助

设计这些分子的新型版本，可以作为抗体药物、降解塑料的酶或新材料。然而，要设计一个小分子药物，科学家面临超过 10^60 种可能的选择。为了设计一个包含 400 种标准氨基酸的蛋白质，他们需要 20^400 种选择。这些大型搜索空间不仅限于分子，也常见于许多科学问题，如解决数学难题的最佳证明、计算机任务的最高效算法，或计算机芯片的最佳架构。

传统上，科学家们依赖直觉、试验、迭代或 brute force 计算来找到最佳的分子、证明或算法。然而，这些方法难以利用巨大的潜在解决方案空间，导致更好的解决方案被遗漏。AI 可以探索新的搜索空间以及更快速地聚焦于最有可能是可行且有用的解决方案 - 这是一个微妙的平衡。例如，在 7 月，我们的 AlphaProof 和 AlphaGeometry 2 系统在国际数学奥林匹克竞赛中正确解决了六个问题中的四个。系统利用了我们的 GeminiLLM 架构，生成大量新颖的想法和潜在解决方案，结合数学逻辑的系统，可以迭代地工作以找到最可能正确的候选解决方案。

AI 科学家还是 AI 支持的科学家？

随着人工智能在科学中的应用日益广泛，早期的 AI 科学助手也逐渐涌现。这引发了关于 AI 能否快速且远距离地发展以及对人类科学家的影响等问题。当前基于大语言模型（LLM）的 AI 科学助手在相对狭窄的任务上，如支持文献综述方面，贡献较小。在未来不久的期限内，他们可能会在这些任务上表现得更好，并且能够承担更具有影响力的职责，比如帮助生成强大的假设或预测实验的结果。然而，当前系统在依赖于人类科学家进行这些任务的深度创造力和推理方面仍然存在困难。正在努力提升这些 AI 能力，例如通过将大语言模型与逻辑推理引擎结合，如我们在 AlphaProof 和 AlphaGeometry 2 示例中所见。但进一步突破仍需努力。加速或自动化实验对于需要复杂操作的湿实验室、与人类互动或长时间过程（如疾病进展监测）的实验来说，将更加困难。虽然如此，这些领域的工作仍在进行中，例如新型实验室机器人和自动实验室。

即使 AI 系统的能力在提升，最大的边际效益也将来自将其应用于能发挥其优势的场景——如从大量数据中快速提取信息——以及解决科学进步中的实际瓶颈，例如上述提到的五个机会。随着 AI 使科学更便宜、更强大，对科学的需求也将增加。例如，最近的突破已经催生了多个新的创业公司，如蛋白质设计、材料科学和天气预报。与其他行业不同，尽管有过去的反对意见,未来对科学的需求似乎几乎是无限的。新的进展总是会开辟新的、不可预测的领域，在知识地图上，AI 将同样如此。根据海德·西蒙的观点，AI 系统也将成为科学研究的对象，科学家将主导评估和解释其科学能力，以及开发新的人类-AI 科学系统。

Part B

原料

我们对推动科学 AI 发展所需的必要条件感兴趣——无论是个人研究层面，还是科学生态系统层面，后者由政策制定者有更大的影响力。我们采访的专家们经常提到几个关键因素，这些因素被组织成一个玩具模型，我们称之为 AI for Science 生产函数。这个生产函数并不是全面、指导性的或简单的线性过程。这些材料对许多人来说是直观的，但我们的访谈揭示了一些在实际操作中的教训，我们将在下面分享。

This figure illustrates how 9 items are are needed for AI for Science efforts to succeed. — 我们的生产函数确定了 9 种关键的 AI 科学努力所需成分。

1. 问题选择

追求具有 AI 影响力的问题

科学进步依赖于识别一个关键问题，并提出 正确的 问题，来解决它。在他们对科学突破的探索中，Venkatesh Narayanamurti 和 Jeffrey Y. Tsao 描述了提问和回答之间相互依存的重要性，包括提出雄心的新问题的重要性。我们的科学团队从考虑一个问题是否足够重要，值得投入大量时间和资源开始。我们的首席执行官 Demis Hassabis 有一个思维模型来指导这一评估：将所有科学视为一棵 知识树。我们特别关注根问题——如蛋白质结构预测或量子化学，一旦解决，将开辟全新的研究和应用领域。

为了评估 AI 是否合适且可扩展，我们寻找具有特定特征的问题，如庞大的组合搜索空间、大量数据和明确的性能基准。通常，问题在理论上适合 AI，但输入尚未准备好，并需要存储以供后续使用。 AlphaFold 的一些早期灵感来自 Demis 在大学时与一个痴迷于蛋白质折叠问题的朋友的对话。近年来，许多突破性进展都涉及了一个重要科学问题和 AI 方法成熟度的结合。例如，我们的融合项目得益于一种新的强化学习算法，即 最大后验策略优化，它刚刚发布。我们合作伙伴 EPFL 刚刚开发的快速准确的模拟器也帮助了我们。这使团队能够克服数据不足的问题。

除了选择正确的课题，更重要的是在适当难度上明确课题。我们的面试者强调，对于 AI 来说，强大的问题陈述通常适合 中间结果。如果选择的问题太难，就无法产生足够的信号来进展。这需要直觉和实验。

2. 评估

投资评估方法，这些方法能提供可靠的性能信号，并得到社区的认可

科学家使用基准、指标和竞赛等评估方法来评估 AI 模型的科学能力。做得好，这些评估可以跟踪进展，鼓励方法创新，并激发研究人员对科学问题的兴趣。通常需要多种评估方法。例如，我们的天气预报团队最初基于几个关键变量，如表面温度等，制定了一个‘进度指标’。他们通过逐步改进模型性能来‘爬山’。当模型达到一定水平时，他们使用了来自欧洲中长期天气预报中心的超过 1,300 个指标进行更全面的评估。在过去的项目中，团队发现 AI 模型有时会以不正当的方式在这些指标上取得好成绩。例如，‘模糊’的预测——如预测降雨区域很大——比‘明确’的预测——如预报风暴位于实际位置略有不同但非常接近的地方——受到的惩罚更轻。为了进一步验证，团队评估了模型在下游任务中的实用性，如预测台风路径和描述大气河流——这些狭窄的湿润带可以导致洪水。

最具影响力的 AI 方法评估方法通常由社区驱动或获得认可。金标准是 Critical Assessment of protein Structure Prediction 比赛。该比赛由 John Moult 教授和 Krzysztof Fidelis 教授于 1994 年创立，每两年举办一次。CASP 比赛挑战研究小组测试其蛋白质结构预测模型的准确性，与真实、未发布的实验性蛋白质结构进行对比。它也成为一个独特的全球社区，推动了研究的进步，尽管难以快速复制。社区的参与需求为发布基准提供了理由，以便研究人员可以使用、批评和改进它们。然而，这也会增加风险，即基准数据泄露到 AI 模型的训练数据中，降低其跟踪进展的有效性。没有完美的解决方案来解决这个权衡，但至少需要定期发布新的公共基准。科学家、AI 实验室和政策制定者也应探索新的方法来评估 AI 模型的科学能力，例如设立新的第三方评估组织、竞赛和让科学家更开放地探究 AI 模型的能力。

3. 计算

跟踪计算使用的变化，并投资于专业技能

多个政府审查已认可计算在 AI、科学和更广泛经济中的重要性。随着我们进一步探讨，对计算能源消耗和温室气体排放的关注也在增加。 AI 实验室和政策制定者应持有务实、长远的观点，考虑计算需求在不同 AI 模型和用例中的变化，潜在的乘法效应和效率提升，以及这与使用 AI 的科学进步方法相比。

例如，一些最先进的 AI 模型，如蛋白质设计，相对较小。较大的模型，如大语言模型（LLM），训练计算密集但通常需要的计算资源较少。一旦 LLM 训练完成，也更容易使其更高效，例如通过更好的数据管理或通过“蒸馏”将大型模型缩小到更小的版本。 AI 计算需求也应与其他科学进步模型进行比较。例如，AI 天气预报模型训练计算资源密集，但仍然可以更高效。这些细节强调了 AI 实验室和政策制定者需要通过实证方法跟踪计算使用情况，以了解其演变，并预测这些趋势对未来需求的影响。除了确保足够的芯片访问，计算策略还应优先考虑管理访问所需的基础设施和工程技能。在学术界和公共研究机构中，这些资源往往不足。

4. Data

从上到下和从下到上的努力，收集、整理、存储和访问数据

就像计算一样，数据可以被视为 AI for Science 项目所需的关键基础设施，这些项目需要随着时间的推移进行开发、维护和更新。讨论常集中在识别政策制定者和实践者应创建的新数据集上。这样的顶层工作也有其作用。 2012 年，奥巴马政府启动了材料项目，旨在绘制已知和预测的材料，如无机晶体，如硅等，在电池、太阳能板和计算机芯片中的分布。我们的 GNoME 项目利用这些数据预测了 2.2 亿种新型无机晶体，包括 380,000 种模拟表明在低温下稳定的晶体。这些使它们成为新材料的候选。

然而，预测哪些科学数据集将最重要往往很困难，许多 AI 突破性成果依赖于由有抱负的个人或小团队创造的数据。例如，丹尼尔·麦卡托（Broad Institute 的研究员），领导了 gnomAD 人类基因组变异数据集的开发，我们随后在 AlphaMissense 工作中借鉴了这些数据。同样，数学证明助手和编程语言 Lean 由程序员 Leonardo de Moura 开发。它不是数据集，但许多 AI 实验室现在使用它来帮助训练他们的 AI 数学模型，包括我们的 AlphaProof 系统。

像 gnomAD 或 Lean 这样的努力强调了需要将从顶层数据中收集的数据与对数据管道各阶段的个人更好的激励措施相结合。例如，一些战略实验室的实验数据目前被丢弃，但如果稳定资金可用的话，可以收集并存储。数据管理也可以更好地激励化。我们的 AlphaFold 模型在 Protein Data Bank 的高质量数据上进行了训练，因为期刊要求先将蛋白质结构提交到 PDB，才能发表。PDB 的专业数据管理员为此制定了标准。在基因组学领域，许多研究人员也必须将原始测序数据存入序列读档库。但标准不一导致的数据集仍需重新处理和整合。一些高质量的数据集因许可条件限制或未发布而被完全忽视，例如生物多样性领域。此外，由于公共资助的融合实验数据已持续数十年未发布，这些数据也未能充分利用。这可能有逻辑上的原因，比如时间、资金、数据存放地点不足，或者需要临时的豁免期。但总体来说，这些数据访问问题已成为使用 AI 推进科学进步的关键瓶颈。

5. 组织设计

找到平衡，既鼓励从下到上的创新，又确保从上到下的协调

一个简单的启发式是，学术界和工业界在科学研究上倾向于两端。学术界更注重底层，而工业实验室则更注重顶层。事实上，中间地带一直存在，尤其是在最成功的实验室中，如贝尔实验室的黄金时代和 Xerox PARC 的辉煌时期，它们以蓝领科研闻名，并为 DeepMind 的成立提供了灵感。最近，出现了新的科学研究机构，它们试图从这些异类案例中学习。这些机构在目标、资助模式、学科领域和工作组织方式上有所不同。但总体来说，它们希望提供更多高风险、高回报的研究，减少官僚主义，并为科学家提供更好的激励措施。许多国家对应用人工智能有很强的重视，例如英国的先进研究与发明机构、弧形研究所，以及不断增长的专注于解决科学领域难题的研究组织，这些组织规模过大，学术界无力应对，也不够盈利以吸引企业投资。例如负责扩展 AI 数学研究中关键性的 Lean 证明助手的组织。

这些新机构的核心是希望找到一种平衡，既注重从上到下协调，又重视从下到上的科学家自主。对于一些组织来说，这意味着专注于一个特定的问题，并设定明确的里程碑。而对于另一些组织来说，则意味着提供更多的自由资金给主要研究者。保持这种平衡至关重要，吸引并留住研究领导者是成功的关键 - Demis Hassabis 认为这是协调大规模前沿研究的单个最大因素。平衡这一关系对个人研究也非常重要在里。在 Google DeepMind 的案例中，努力通常会围绕着两种不同的阶段展开：一种是更开放的‘探索’阶段，团队寻找新想法；另一种是更快的‘利用’阶段，专注于工程和性能提升。知道何时切换这两种模式，并相应调整项目团队的工作方式，是一项艺术。

6. 跨学科

以团队为单位，支持 neglected roles，并倡导竞争性文化

许多最棘手的科学问题需要跨学科合作。然而，当实践者聚集在一起，例如在新冠疫情期间，他们往往难以从多学科团队（每个团队保留各自的专业角度）过渡到真正的跨学科合作（团队共同发展共享的想法和方法）。这个挑战反映了科学知识的日益专业化，以及激励措施，如资助资金，这些措施通常主要评估实践者的核心技能。

AI 用于科学的研究通常涉及多学科，但要取得成功，需要真正实现跨学科。一个起点是选择一个需要每种专业知识的问题，并为团队提供足够的时间和关注，以培养围绕这个问题的团队动态。例如，我们的 Ithaca 项目使用 AI 来修复和归因损坏的古代希腊铭文，这有助于研究古代文明的思想、语言和历史。为了成功，项目负责人 Yannis Assael 必须掌握古文字学 - 古代刻有文字的学科。随后，他们的助手们也必须了解 AI 模型的工作原理，因为直觉在他们的工作中至关重要。培养这些团队关系需要适当的激励。赋予一个小型、紧密联系的团队解决问题的动力，而不是撰写论文，是 AlphaFold 2 成功的关键。这种聚焦在工业实验室更容易实现，但再次强调了长期的公共研究资金的重要性，这些资金较少受出版压力的影响。

This gif showcases an inscription which is restored with the help of AI. — 这个恢复的铭文（IG I3 4B）记录了一项关于雅典阿克罗米亚的法令，日期为公元前 485 年。（CC BY-SA 3.0，维基媒体）。

为了实现真正的跨学科合作，组织还需要为能够促进学科融合的个人创造角色和职业路径。在 Google DeepMind，我们的 研究工程师 们鼓励研究与工程之间的良性循环，而我们的 项目经理们则帮助培养团队内部的动态，并建立不同领域的联系。我们还优先考虑招聘喜欢在不同领域之间寻找联系的人，以及那些对新领域快速提升技能充满热情的人。为了促进思想的交叉交流，我们鼓励科学家和工程师定期更换项目。最终目标是创造一个鼓励好奇心、谦逊和‘竞争性’的文化——所有背景的实践者都能在开放讨论中自信地展示和建设性地批评彼此的工作。

7. adoption

仔细考虑最佳访问选项，并突出 AI 模型的不确定性

许多用于科学的 AI 模型，如 AlphaFold 或我们的天气预报工作，具有特定的特点，它们只处理少数任务。但它们也具有通用的特点，数百位科学家正在使用它们

, 从理解疾病到改进渔业管理。这种影响尚未确定. 寄生论的传播过程缓慢，而科学突破所可能带来的下游产品，如新型抗生素等，往往缺乏市场动力。

在决定发布模型时，我们平衡了科学家们希望广泛采用和验证的需求，同时考虑商业目标和其他因素，如潜在的安全风险。我们还创建了一个专门的影响力加速器，推动突破性技术的采用，并鼓励社会有益的应用，这些应用可能不会自然发生，包括与像药物缺乏疾病倡议和全球抗生素研究与开发伙伴关系这样的组织合作。

为了鼓励科学家使用新的模型或数据集，开发者需要尽可能简化科学家的使用和集成流程。为此，对于 AlphaFold 2，我们开源了代码，并与 EMBL-EBI 合作开发了一个数据库，其中包括那些计算能力较弱且基础设施不足的科学家可以搜索并下载从现有 2000 万蛋白质结构中获取的信息。 AlphaFold 3 扩展了模型的性能，导致潜在预测的数量激增。这需要新的界面 AlphaFold Server，使科学家们能够按需创建结构。科学界也开发了自己的 AlphaFold 工具，如 Colabfold，展示了社区的需求多样性以及培养计算技能的价值来解决这些需求。

到目前为止，来自 190 多个国家的超过 200 万用户已访问了 AlphaFold 蛋白质结构数据库，查看了 7 百万个结构。

科学家也需要信任 AI 模型才能使用它。我们将在下面讨论可靠性问题，但一个有用的起点是明确地指导科学家如何使用模型及其不确定性。对于 AlphaFold，团队与科学家进行了对话，开发了能准确传达模型对蛋白质结构预测置信度的指标，并通过直观的视觉化支持这些置信度。我们还与 EMBL-EBI 合作，开发了一个训练模块，提供了如何最佳使用 AlphaFold 的指导，包括如何解读置信度指标，并通过实际案例展示了其他科学家是如何使用的。同样，我们的 Med-Gemini 系统最近在回答健康相关问题上取得了最先进的性能。它使用了一种 由不确定性驱动的 方法，该方法通过生成多个“推理链”来回答问题。然后，它根据这些初始答案之间的相对差异来计算不确定程度。当不确定程度高时，会调用网络搜索以整合最新、最准确的信息。

This image shows how Med-Gimini-3D can use brain scans as a prompt and generate a response. It is then also compared with the findings from a radiologist. — Med-Gemini-3D 能生成 CT 扫描报告，这是标准 X 光片难以处理的复杂形式。在这一示例中，Med-Gemini-3D 的报告正确地包括了一个病理（绿色高亮）被原放射科医生遗漏了。请注意，“basilar” 是“basal”的常见误译，但 Med-Gemini 已从训练数据中学习到这一点，并不影响报告的意义。

8. 合作

追求早期对齐和明确的价值交换

AI 用于科学的研究需要多样化的专业知识，这推动了公共和私营组织之间的合作需求。这些合作在项目生命周期的每个阶段都至关重要，从创建数据集到分享研究。特别是，AI 实验室通常需要科学家来评估 AI 模型的输出。例如，最近的研究显示，资深材料科学家在评估 AI 模型预测的新材料是否具有实际应用性方面至关重要。同样，我们的蛋白质设计团队与弗里德里克森·克拉克研究所的研究团队合作，在实验室中测试了我们设计的蛋白质是否与靶标结合，并且具有预期的功能，如防止 SARS-CoV-2 病毒感染细胞。我们的 FunSearch 方法开发了一种新的构造，解决了 Cap Set 问题，这被认为是著名数学家 Terence Tao 的 favourite open question。这得益于与威斯康星大学麦迪逊分校的数学教授 Jordan Ellenberg 合作。由于行业实验室在推动人工智能发展中的核心作用，以及对丰富专业知识的需求，这些公共-私人合作将变得越来越重要，可能需要更大的投资，如更多的资金支持大学和公共研究机构的伙伴关系团队。

建立伙伴关系很困难。在开始讨论时，重要的是尽早明确总体目标，并解决可能引起争议的问题，比如各方对输出的权力，是否应该出版，模型或数据集是否应开源等。意见分歧是自然现象，且往往反映了公共和私人组织的激励，这些激励因研究成熟度和商业潜力等因素而大不相同。成功的合作通常涉及明确的价值交换，利用了每个组织的优势。例如，超过 200 万用户来自 190 个国家使用了AlphaFold 蛋白质结构数据库。这需要与 EMBL-EBI 的生物文库专家和科学网络紧密合作。

9. 安全与责任

通过评估来探索权衡，激发新的评估方法

科学家们在 AI 模型对科学和更广泛社会的影响问题上经常意见不一，有时非常强烈。进行伦理和安全评估有助于引导讨论，使科学家能够决定如何开发给定的 AI 模型。一个起点是确定影响最重大的领域，并以适当抽象级别明确这些领域。越来越多的框架正在用于识别和分类不同的人工智能风险，例如支持虚假信息。但这些框架很少考虑 AI 在同一领域的潜在好处，比如提高高质量信息合成的访问性，或者限制 AI 模型的访问或限制其功能时可能发生的权衡问题。评估应明确其时间表、任何影响的相对确定性，以及人工智能实现目标的相对重要性或 额外收益。例如，担心人工智能和气候变化的人往往关注立即所需的训练大型 AI 模型的力量，而 AI 倡卫者则关注未来 AI 应用程序带来的气候长期利益。在评估过程中，AI 实践者也应避免过度关注模型的特定能力，这些能力他们更接近。他们需要了解第三方实际使用或受影响的程度，这通常需要外部专家的帮助才能做到。

实践者也需要新的方法来更好地评估使用 AI 的潜在风险和收益。目前，许多 AI 安全评估依赖于指定模型不应输出的内容类型，并量化其遵守该政策的程度。这些评估在某些科学使用 AI 的风险中非常有用，例如生成不准确的内容。但其他风险，如生物安全，我们提前确定某些类型科学知识为危险的观念已被质疑，因为科学知识具有双用性质，而且这类努力往往关注历史上的有害因素，如过去疫情中的病毒等，而不是新的风险。更好的方法可能是评估 AI 模型的危险能力，或 AI 模型对人类危险能力的影响程度。在许多情况下，这些能力也会具有双用性，例如帮助设计或执行实验协议。这些 AI 能力的风险或机会取决于威胁行为者被评估的程度以及模型的访问方式。除了安全问题，评估使用 AI 在科学中带来的其他风险，如科学创造力或可靠性（我们将在下面讨论），需要采用全新的评估方法。由于研究和执行这些评估的难度较大，建议在社区层面进行探索，而不是每个实验室都单独行动。

Part C

The risks

政策论文、政府文件和科学家的调查经常提到人工智能在科学中的使用带来的风险。这三个风险主要涉及科学实践：创造力、可靠性和理解。另外两个风险主要涉及科学的公平性和环境：社会公平性和环境影响。 AI 的使用通常仅被视为对这些领域的风险，而科学可靠性和环境等领域的稳定、理想化描述往往忽略了它们面临的更广泛挑战。我们相信，通过在科学中使用 AI，这五个领域最终将受益，因为有机会缓解 AI 所带来的风险，并利用 AI 来解决这些领域中的更大挑战。实现有益的结果将对不平等更具挑战性，因为这种不平等在多个层次上存在，从劳动力队伍的构成到科学研究的数据基础，以及科学创造力本身是高度主观的。这些细微之处提高了科学家、政策制定者和其他人对如何利用 AI 影响这五个领域做出预期的重要性。

In this image, five risks of using AI are shown: creativity, reliability, understanding, equity, environment. — 政策论文、政府文件和科学家的调查经常提到人工智能在科学领域使用中的 5 个风险。

1. 创意

人工智能会减少新颖、反直觉的突破吗？

科学创造力指的是创造有用的新事物。在实践中，科学家将新想法、方法或成果视为创意的主观标准更多地取决于主观因素，如其简单性、反直觉或美感。今天，科学创造力受到限制的影响，因为科研人员队伍的相对同质化缩小了思想多样性。对研究人员来说，‘发表或 perish’的压力也鼓励了 ‘群体追随’ 的出版，而不是那些需要深入研究和跨学科概念连接的类型。这可能解释了为什么 disruptive 科学思想的分享量似乎在减少，远远超过通常预期的情况。随着科学领域的扩展，这种现象可能变得更加明显。

一些科学家担心，使用人工智能可能会加剧这些趋势，通过削弱人类科学家的直觉、非传统和偶发的方法。这可能以多种方式发生。一个担忧是，AI 模型被训练来 最小化 训练数据中的异常，而科学家们通常通过放大他们对困惑的数据点的直觉来增强异常。其他人担心，AI 系统被训练用于特定任务，因此依赖它们会错过一些意外的突破，比如研究人员意外地发现了他们没有研究的问题。在社区层面，有些人担心如果科学家们普遍接受 AI 大规模 推广，可能会导致输出的逐渐同质化，例如大语言模型对不同科学家的查询给出相似的回答。或者如果科学家们过于专注于那些最适合人工智能的学科和问题。

支持探索研究和非 AI 研究有助于减轻这些风险。科学家们还可以通过调整 AI 的使用方式，使其更有利于他们的创造力。例如，通过微调大语言模型来建议更多个性化的研究想法（），或帮助科学家更好地激发自己的想法，类似于我们早期的努力（）开发的 AI 教授工具，这些工具可以帮助学生更好地反思问题而不是直接输出答案。 AI 也可能带来新的科学创造力，这些创造力可能人类难以实现。AI 的一种创造性是插值，即 AI 系统在训练数据中识别出新颖的想法，尤其是在人类能力有限的情况下，如使用 AI 来检测大型强子对撞机实验中的大量数据中的异常。第二种是外推，AI 模型在训练数据之外，探索出新的解决方案，例如著名的 37 号，我们的 AlphaGo 系统创造的，震惊了人类围棋专家或我们 AlphaProof 和 AlphaGeometry 2 系统生成的 novel math proofs and non-obvious constructions. 第三种是发明，AI 系统会提出全新的理论或科学体系，完全脱离训练数据，类似于广义相对论的最初开发，或复数的创造。目前的人工智能系统尚未展现出这种创造力，但新的方法可能解锁这一潜力，例如多目标代理系统、如优化不同目标，如新颖性和反直觉的系统，或训练有素以生成新颖科学问题的 AI 模型。

2. 可靠性

AI 会减少科学的自我修正能力吗？

可靠性描述了科学家们能够依赖彼此的发现，并信任这些发现不是由偶然或错误引起的。今天，一系列相互关联的挑战减弱了科学的可靠性，包括 p-hacking 和出版偏见，这些可能导致研究人员低估负面结果; 缺乏标准化在科学家日常任务中；例如，在统计方法使用上出现错误；例如在统计方法上; 科学欺诈；以及同行评审过程中的挑战,如缺乏合格的审稿人。

一些科学家担心，AI 可能会加剧这些挑战，因为有些 AI 研究存在不良实践，例如研究者选择特定的评估方法来评估模型的表现。AI 模型，特别是大语言模型（LLMs），也容易产生‘幻觉’输出，包括科学引用等虚假或误导性的内容。其他人担心 LLMs 可能会导致大量质量低劣的论文类似那些 ‘论文工厂’ churn out 的论文。社区正在开发缓解这些问题的措施，包括研究者的良好实践检查清单，以确保他们遵守这些标准。此外，还有不同类型的 AI 事实验证研究，例如训练 AI 模型以将输出与可信来源对齐，或帮助验证其他 AI 模型的输出。

科学家们也可以利用人工智能来提高研究基础的可靠性。例如，如果 AI 能帮助自动化数据标注或实验设计，这将为这些领域提供急需的标准化。随着 AI 模型在引用支持方面表现更佳，它们也能帮助科学家和政策制定者进行更系统地证据审查，例如在气候变化领域，像联合国政府间气候变化评估小组这样的组织正面临出版量的快速增长。执业者也可以利用 AI 来帮助检测错误或欺诈图像，以及误导性的科学陈述，如最近由《科学》期刊的一项研究所显示的那样。更进一步地说，AI 可能会帮助进行同行评审，因为一些科学家已经使用大语言模型来帮助他们审阅自己的论文，并验证 AI 模型的输出。例如，在定理证明中。然而，也有合理的担忧，包括数据保密性、AI 系统识别真正新颖工作的能力，以及需要科学家的参与以应对同行评审在项目审批等过程中的重要角色。

3. 理解

人工智能会以牺牲更深入的科学理解为代价，提供有用预测吗？

在最近的一篇 Nature 调查中，科学家指出，过度依赖模式匹配而牺牲对科学的深入理解是使用 AI 在科学领域最大的风险。发现新现象（如超导体）和开发有用应用（如药物）并不总是需要理解，但大多数科学家将其视为首要目标之一，因为这是人类最深的知识形式。关于人工智能削弱科学理解的问题包括现代深度学习方法缺乏理论支持，无法融入或贡献于预测现象的理论。科学家还担心 AI 模型难以解读，因为它们没有明确的方程和参数。此外，任何 AI 模型输出的解释对科学家来说都是不可及用的。当 AI 模型一起使用时，它们可能提供关于蛋白质结构或天气的有用预测，但它们能否帮助科学家理解蛋白质如何以特定方式折叠，或者大气动力学如何导致天气变化？

关于将‘真实，理论科学’与‘低俗 ... 计算’等技术相替换的担忧并非新鲜，过去的技术如蒙特卡洛方法也受到了质疑。融合工程和科学的领域，如合成生物学，也因优先考虑实用应用而受到批评。这些方法和技术带来了科学理解的进步，我们有信心 AI 也会，即使有些进步难以预测。首先，大多数 AI 模型并不遵循宗教原则（atheorethical），而是通过不同的方式利用先前的知识，例如构建数据集和评估。一些 AI 模型还具有可解释的输出。例如，我们的 FunSearch 方法生成的代码不仅描述了它如何找到答案的过程。

研究人员也在开发可解释性技术，以揭示 AI 系统的工作原理，例如识别模型学习的概念。这些可解释性技术存在重要限制，但它们已经使科学家能够从 AI 模型中提取新的科学假设。例如，转录因子是与 DNA 序列结合的蛋白质，通过激活或抑制附近基因的表达来调控其表达。一个 AI 研究项目能够预测 DNA 序列中每个基的贡献，以及这些基对不同转录因子结合的影响，并用生物学家熟悉的概念来解释这一结果。更大的机会是，通过 AI 系统的学习方式来掌握全新的概念。例如，我们的研究人员最近展示了他们的 AlphaZero 系统掌握了“超人”水平的棋局知识，包括不寻常的走法和策略，并使用另一 AI 系统提取这些概念并教给人类棋手。

即使没有可解释性技术，AI 也能通过开辟新的研究方向，从而改进科学理解。例如，通过解锁生成大量合成蛋白质结构的能力，AlphaFold 让科学家们能够搜索 蛋白质结构 而不是仅限于蛋白质序列。一个小组采用了这种方法，发现了 Cas13 蛋白质家族的一个古老成员，它对 RNA 编辑有潜力，包括用于疾病诊断和治疗。这一发现也挑战了之前关于 Cas13 进化的假设。相反，努力修改 AlphaFold 模型架构以包含更多先前知识导致性能下降。这突显了准确性与可解释性之间的权衡，但 AI 系统也能通过这种不透明性推动科学理解，而不是尽管他们的不透明性，而是因为这样。这种不透明性可能源于它们在高维空间中操作的能力，这些空间对人类来说可能是不可解释的，但却是科学突破所必需的。

4. Equity

人工智能会减少对边缘群体的科学代表性和实用性吗？

不平等在科学界显而易见，体现在他们研究的领域、开发的数据和模型上，以及由此产生的成果和影响。这些不平等相互关联，并且随着时间推移会加剧。例如，少数实验室和个人在高收入城市占有了显著比例的科研成果。研究发现与疾病相关的遗传变异主要依赖于欧洲裔群体的数据，而忽视的热带病在低收入国家中影响巨大，但研究资金相对较少。在农业领域，作物创新主要针对高收入国家常见的 pests，然后错误地应用于不同类型的低收入国家的 pests上，这会降低产量。尽管有积极的趋势，女性占比例只占 33%，在临床试验中长期被低估，特别是有色女性。

观察者担心，AI 在科学中的广泛应用可能会加剧这些不平等。在性别、种族和实验室的地理位置方面，AI 工作者的代表性不如其他许多学科，因此 AI 的广泛应用可能损害科学领域的广泛代表性。作为数据驱动的技术，AI 也存在风险，会继承并固化科学数据集中的偏见。

也有机会利用人工智能来减少科学领域的不平等，但并非替代更系统性的变革。如果 AI 模型通过低成本服务器或数据库提供，科学家们，包括来自少数群体的科学家，将更容易地研究传统上被忽视的问题。通过摄入更多数据，AI 模型也可能学会更普遍的模式，这些模式有助于科学家研究的复杂系统。例如，由于其非代表性数据，研究发现与疾病相关的遗传变异时可能会遗漏混杂变异（而非因果变异）。相反，一些早期尝试在更大规模的蛋白质结构和遗传变异数据集上训练 AI 模型，包括物种间的数据，能够更准确地预测疾病风险最高的个人，并减少不同群体间的差异。然而，最终实现公平将需要长期的努力，如 H3Africa 的基因组学项目和 Deep Learning Indaba 的 AI 项目，这些项目旨在在科学基础设施、社区和教育方面最薄弱的地区建立起来。

5. 环境

人工智能会帮助或阻碍实现净零？

由于对自然世界的渴望，许多科学家长期以来一直在保护环境的事业中发挥作用，从提供早期关于气候变化的证据到开发太阳能电池。近年来，越来越多的科学家表达了担忧人工智能可能对环境造成的影响，并开发了量化方法来尝试评估这些影响。大多数担忧集中在大语言模型对温室气体排放的影响上，以及与之相关的其他问题，比如冷却数据中心所需的水。可以将这些影响视为生命周期的视角，这涵盖了直接和间接的影响。直接影响包括建模和运行 AI 模型所涉及的建筑和数据中心设备产生的排放物。没有全面的估计 AI 的直接排放量。然而，2021 年的一份估计表示，许多大型 AI 模型在训练和部署的云和超大规模数据中心中，占全球排放量的 0.1-0.2%。

随着大语言模型（LLM）规模的不断增长，观察者们警告说这些数据可能大幅增加，甚至显著增加。然而，许多使用 LLM 的用户，包括科学家，在相对较低的计算成本下将能够微调它们或利用预测，而不是从头开始训练。努力也在推进大语言模型（LLMs）的效率提升，数字技术的历史表明有显著的改进可能实现，尤其是由于商业压力要求更快、更便宜的 AI 模型。在某些情况下，AI 模型产生的排放量会低于其他方法。例如，我们的内部分析显示，在实验确定少量蛋白质结构（少于 10 个）时使用的能量与 AlphaFold 2 的完整训练运行大致相同。这些结果需要仔细分析，因为 AI 模拟依赖并影响物理实验，而不是替代它们。但它们也展示了 AI 如何在较低的平均能耗成本下促进更多的科学活动。

关键在于，AI 对排放量的影响，无论是正面还是负面的，都可能比 AI 应用程序带来的间接影响要小得多。通过在科学中使用 AI，我们有三大主要机会来减少排放量。首先，人工智能、数学和计算机科学之间的进展将显著提升互联网的效率，从设计更高效的芯片到开发更高效的算法以处理日常任务。随着经济越来越多地转向线上，这将有助于抵消这些领域的排放量。 AI 可以加速可再生能源的发展和使用，例如通过设计新材料，如电池或太阳能板，通过优化电网运行和如何整合可再生能源，以及通过更具有变革性但充满不确定性的机会如核聚变。最后，世界已经变暖了了，并且 AI 可以帮助更好地准备应对极端天气事件。例如，我们的天气预报模型最近准确预测，七天前，会准确预测致命的 Hurricane Beryl 会在德克萨斯州登陆。非人工智能模型原本在三日前就预测了登陆墨西哥，但后来修正了错误的预测，并在它发生前三天进行了调整。

Part D

政策应对

科学进步对几乎所有重大经济、环境和安全目标都至关重要，因此，政府应将科学和人工智能加速其发展作为首要任务。新的 AI for Science 政策议程会是什么样的？政策制定者可以从已经存在的许多好政策中开始实施，这些政策使在 AI 时代更加合理。例如，AI 将提高科学研究资金的回报率，因此有理由增加投资并试验如何分配这些资金。在计算领域，政府可以实施英国《独立审查》中提出的建议，建立一个专门机构来持续评估和建议政府潜在的投资。为了支持 AI for Science 初创企业，政策制定者可以改进分拆政策和支持有成效的孵化器和奖学金。

但也需要制定雄心勃勃的新政策来抓住人工智能在科学领域的机遇。我们提出以下四个建议。这些建议旨在广泛适用，但具体细节需要根据国家的具体情况进行调整，考虑国家的优先事项、独特优势和机构环境。

1. 定义 AI 在科学中的“希尔伯特问题”

科学进步依赖于选择正确的课题。1900 年，德国数学家大卫·希尔伯特发表了 23 个未解决的问题，这些问题对 20 世纪数学的发展产生了深远影响。作为即将举行的国际活动的一部分，如巴黎的 AI 行动峰会，政策制定者、AI 实验室和科学基金可以发起一个公开征集科学家和技术家的问题，由一个重要的新全球基金支持，推动这些问题的研究进展。提交时应说明问题的重要性、为何适合现代 AI 系统，可能被忽视的原因，存在的数据瓶颈，以及短期技术进步的评估方法。

最前沿的想法可以成为新的科学竞赛的基础，科学家们将使用 AI、新数据集、评估方法和竞争标准来解决这些问题。这些竞赛可以借鉴最近涌现的评估 AI 模型科学能力的比赛，吸引全球各地的优秀年轻人才。除了直接的影响，AI for Science ‘Hilbert Problems’ 项目可以成为国际科学合作和资金的积极焦点，激发新一代跨学科科学家去识别并解决 AI 形状的问题。

2. 让科学家们能更好地理解世界

大多数科学数据是不完整、未整理或不可用的，无法用于训练 AI 模型。解决这一挑战没有单一的政策回应。政策制定者和资助者需要结合一些顶层计划与支持扩大有潜力的基层项目的措施。应建立一个新的国际 科学数据观测台网络，以帮助实现这些目标。这些观测台可以长期支持，并负责进行快速 AI for Science 的数据盘点，专家团队会绘制优先学科和应用领域的数据状态图。库存可以识别现有的数据集，如序列读档案，这些数据集的质量可以进一步提升。此外，还有未被充分利用的数据集，如当前无法用于科学家的数十年实验融合数据或受限制许可条件的生物多样性数据集。库存还可以包括新的‘数据愿望清单’。例如，我们的内部分析显示，关键环境研究领域中只有不到 7% 的论文使用了 AI。我们最近资助了 Climate Change AI 来识别数据集，如果可用或改进的话，这些数据集可以减少一些对更高 AI 使用的瓶颈。为了确保这一分析能推动行动，政策制定者应指定并赋予组织问责权于数据评估的结果。

望远镜还可以关注创建新的数据库，包括确保长期存储、维护和激励。这可能包括用于安全存储战略实验室实验结果的新数据库，这些结果目前被丢弃。此外，将这些实验结果作为公共研究资金要求的一部分。或者进一步 digitise 公共档案馆，借鉴英国政府和自然历史博物馆最近的合作，将他们的自然科学收藏数字化，包括超过 1.37 亿件物品，从蝴蝶到豆类，在 46 亿年的历史中。政策制定者还可以鼓励科学家使用大语言模型来创建和改进自己的数据集，通过确保公开资助的研究默认开放，尽可能地利用最近从英国、美国和日本的经验，包括要求在预印本服务器上发布研究。政策制定者可以寻求与行业和慈善组织合作，共同资助最雄心的数据集项目。

3. 让 AI 成为下一个科学工具

过去半个多世纪里，随着科学技术的数量增长，科学家们与这些技术的距离也在拉长。许多科技是科学成果，但越来越多的科学家不再接受有效开发和使用的培训。迫切需要的是为现有科学家和研究领导者提供资金支持和激励，以推动更短、更战术的 AI 培训计划和奖学金的普及。政策制定者可以通过明确目标，鼓励这些努力，确保每位博士生都能访问科学领域中 AI 入门课程，包括他们领域的关键工具。就像基本统计学一样，今天通常会以这种方式教授。所需训练的类型和深度将取决于个人的专业背景和技能水平，从基础的入门课程，介绍如何可靠地使用大语言模型进行日常研究任务，到更高级的课程，包括如何在科学数据上微调 AI 模型、以及如何应对复杂挑战，如评估他们用于测试模型性能的数据是否故意或无意中泄露了用于训练该模型的数据。这些项目可以借鉴剑桥大学的加速计划，为博士和博士后研究员提供结构化的 AI 培训，或 The Carpentries 提供的编程、数据和计算技能的短课程。

政策制定者也应迅速采取措施，建立长期计划，确保下一代科学家具备所需技能。这意味着在各级教育中推广和深化人工智能培训和技能发展。中学科学学生需要早期接触 AI 的影响，而大学学生则需要新的跨学科 AI 科学学位，如与非洲数学科学研究所合作开发的 pan-African AI for Science 硕士计划。此外，Dedicated scholarships 也能提供帮助。例如，英国的 BIG Scholarships 计划为高年级学生提供了卓越的机会，重点面向来自代表性不足群体的学生，他们在国际科学奥林匹克竞赛中表现出色，并希望继续在顶尖科学中心学习但缺乏资金。

4. 建立证据，并探索新的科学组织方式。

科学家们对 AI 的使用正在以指数增长，但政策制定者几乎没有关于谁做得最好、他们如何做到的证据。这一证据缺口阻碍了识别最佳 AI 政策和有针对性地实施。过去，这些问题的答案通常来自经济学或创新研究等领域，但结果往往需要数年时间才能到来。我们正在利用引文数据分析、访谈和社区参与，了解科学家们如何使用我们的 AI 模型。政府也投资于这些 跨学科科学能力，以改进它们的科研资金分配、共享和评估方式。利用这一势头，科学家们可能被要求迅速评估基础政策问题，包括：哪些是科学研究中最具影响力的 AI，以及哪些组织、人才、数据集和评估方法在支持这些 AI 上发挥了作用？科学家们在使用和微调大语言模型（LLM）方面与更专门的 AI 模型有何区别？他们如何获取这些模型？ AI 在哪些方面（如科学创造力、可靠性、环境等）带来了益处或负面影响？AI 对科学家的职位看法有何影响？还有哪些技能、知识差距或障碍阻止了其更广泛的应用？

除了提供稳健的政策回应，这一证据将为政策制定者提供所需的战略眼光，以预见人工智能如何重塑科学和社会。此外，这些证据还将揭示重新设计激励机制和机构的机遇，在人工智能时代。特别是，科学家和政策制定者们只探索了少量可能的方法来组织和执行科学研究。人工智能的兴起为探索新的机构提供了积极的推动作用，从那些有更多自由追求高风险、高回报的研究机构，到专注于解决特定瓶颈的聚焦型组织。从新的跨学科 AI 科学机构，如气候或食品安全领域，到我们尚未想象的完全 novel 的机构。那些实验更快的人将从中受益最大。

感谢您的支持和鼓励

感谢 Louisa Bartolo、Zoë Brammer 和 Nick Swanson 的资助，以及以下个人通过访谈或对草稿的反馈，分享了他们的见解。所有观点和错误都由作者负责。

扎伊·阿维塞克，尼基拉斯·卢恩巴尔德，约翰·贾普特，马特·克莱夫林，本·南斯伍德，卡鲁尔·唐纳德森，乔埃勒·巴雷尔，汤姆·扎维亚，本杰明-金姆、塞巴斯蒂安-诺瓦津、马特-克莱因、马塔什-巴洛格、梅塔赫-布拉戈伊、奈蒂沙兰-拉吉穆克、布兰登-泰切里、扬尼斯-阿萨埃尔等Leibo, Elisa Lai H. Wong, Ben Johnson, David Osimo, Andrea Huber, Dipanjan Das, Ekin Dogus Cubuk, Jacklynn Stott, Kelvin Guu, Kiran Vodrahalli, Sanil Jain、Trieu Trinh、Rebeca Santamaria-Fernandez、Remi Lam、Victor Martin、Nel Nanda、Nenad Tomasev、Obum Ekeke、Uchechi Okereke 以及 Francesca Pietra。