作者:Conor Griffin | Don Wallace |Juan Mateos-Garcia lHanna Schieve | Pushmeet Kohli,
翻译:刘力 算力魔方创始人
编者按:文并不是逐字逐句翻译,而是以更有利于中文读者理解的目标,做了删减、重构和意译,并替换了多张不适合中文读者的示意图。
原文链接:https://deepmind.google/public-policy/ai-for-science/
全球实验室正悄然兴起一场革命,科学家对AI的使用正迅猛增长。超过三分之一的博士后已利用大语言模型辅助整理文献、撰写综述、编写代码等等。2024年10 月,AlphaFold 2的创建者 Demis Hassabis 和 John Jumper因使用人工智能预测蛋白质结构而获得诺贝尔化学奖,让整个科学界迅速感受到用AI加速科学发现的益处。
科学家们致力于探究、预测并影响自然界与社会的运行规律,旨在激发并满足人们的好奇心,同时解决社会面临的重大问题。科学家对人工智能(AI)日益增长的运用,可能预示着更为深远的变革——即科学能力边界的一次非连续性飞跃。下面是五个我们认为迫切需使用AI的科学领域,这些机遇跨越不同学科,涵盖从提出有力新假设到向世界分享研究成果的各个环节。
为了做出新的发现,科学家需要掌握一个不断呈指数增长且越来越专业化的现有知识体系。这种“知识负担”解释了为什么取得突破性发现的科学家年龄越来越大、跨学科合作增多,并且更多地集中在顶尖大学中。这也说明了为何单人或小团队撰写的论文比例在下降——尽管小团队往往更擅长推进颠覆性的科学理念。在分享研究成果方面,虽然出现了诸如预印本服务器和代码库等有益创新,但大多数科学家仍然通过内容密集、术语繁重且仅限英文的论文来交流他们的发现。这种方式可能会阻碍而非激发政策制定者、企业和公众对科学研究的兴趣。科学家们已经开始使用大语言模型(LLM)及其基础上开发的早期科学助手来应对这些挑战,例如通过综合文献中最相关的见解。在一次早期演示中,我们的科学团队利用Gemini,在一天内从20万篇相关论文中找到了特定数据并进行了提取与填充。未来的技术进步,如针对更多科学数据微调LLM以及长上下文窗口和引用使用的改进,将稳步提升这些能力。正如我们在下文中所讨论的,这些机遇并非没有风险。但它们为从根本上重新思考某些科学任务提供了契机,比如在一个科学家可以利用LLM帮助批判、调整其对于不同受众的意义或将之转化为“交互式论文”或音频指南的世界里,“阅读”或“撰写”一篇科学论文意味着什么。
尽管人们常谈论数据丰富的时代,但在自然与社会世界的诸多领域,从土壤、深海、大气到非正规经济,科学数据依然长期匮乏。人工智能(AI)能以多种方式助力解决这一问题。
首先,AI能提升现有数据收集的准确性。例如,在DNA测序、样本中细胞类型的检测或动物声音的捕捉过程中,AI能够减少可能出现的噪声和错误。同时,科学家们还能利用大型语言模型(LLMs)日益增强的跨图像、视频和音频处理能力,从科学出版物、档案以及教学视频等不那么显而易见的资源中,挖掘出隐藏的非结构化科学数据,并将其转化为结构化数据集。此外,AI还能为科学数据标注所需的辅助信息,以便科学家更好地利用这些数据。举例来说,至少有三分之一的微生物蛋白质缺乏关于其预期功能的可靠标注。2022年,我们的研究人员利用AI预测蛋白质功能,为UniProt、Pfam和InterPro等数据库增添了新条目。一旦经过验证,AI模型还能成为合成科学数据的新来源。例如,我们的AlphaProteo蛋白质设计模型就是基于AlphaFold 2生成的超过1亿个AI蛋白质结构,以及来自蛋白质数据库的实验结构进行训练的。这些AI技术的应用能够与其他急需的科学数据生成工作相辅相成,共同提高效益。例如,通过档案数字化,或资助新的数据捕获技术与方法(如当前正在进行的单细胞基因组学研究,旨在以前所未有的详细程度创建单个细胞的强大数据集),我们可以进一步丰富科学数据的宝库。
许多科学实验耗资巨大、复杂且进展缓慢。有些实验甚至因研究者无法获取所需的设施、参与者或投入而根本无法进行。核聚变就是一个典型的例子。它有望成为一种几乎无限、零排放的能源,并能推动海水淡化等高能耗创新技术的规模化应用。为实现核聚变,科学家需要创造并控制等离子体——物质的第四种基本状态。然而,建设所需设施极为复杂。国际热核聚变实验堆(ITER)的原型托卡马克反应堆于2013年开始建设,但最早也要到2030年代中期才能开始进行等离子体实验,尽管其他团队希望在更短的时间内建造出更小的反应堆。人工智能(AI)有助于模拟核聚变实验,并显著提高后续实验时间的利用效率。一种方法是在物理系统的模拟上运行强化学习算法。2019年至2021年间,我们的研究人员与瑞士洛桑联邦理工学院合作,展示了如何使用强化学习(RL)来控制托卡马克反应堆模拟中的等离子体形状。这些方法可以扩展到其他实验设施,如粒子加速器、望远镜阵列或引力波探测器。虽然不同学科使用AI模拟实验的方式各不相同,但共同之处在于,模拟通常是为了指导和启发物理实验,而非取代它们。例如,每个人的DNA中平均有9000多个错义变异,即单个字母的替换。这些遗传变异大多无害,但有些会破坏蛋白质的功能,从而导致囊性纤维化等罕见遗传病以及癌症等常见病。测试这些变异影响的物理实验通常仅限于单一蛋白质。而我们的AlphaMissense模型能够对7100万个潜在的人类错义变异中的89%进行分类,判断其可能有害还是无害,从而使科学家能够将物理实验的重点放在最有可能导致疾病的变异上。
在1960年的一篇论文中,诺贝尔物理学奖得主尤金·维格纳对数学模型在模拟行星运动等重要自然现象时所展现出的“不可思议的有效性”赞叹不已。然而,在过去的半个世纪里,那些依赖于方程组或其他确定性假设的模型在捕捉生物学、经济学、天气等领域系统的全部复杂性时却显得力不从心。这反映了构成这些系统的交互部分数量庞大,以及它们所具备的动态性和出现新兴、随机或混沌行为的潜力。对这些系统进行建模的挑战阻碍了科学家预测或控制它们行为的能力,尤其是在面对温度升高、新药问世或税收政策调整等冲击或干预时。人工智能(AI)能够通过吸收更多关于这些系统的数据,并学习数据中更强大的模式和规律,从而更准确地构建这些复杂系统的模型。例如,现代天气预报就是科学与工程的杰出成果。对于政府和工业界而言,它为从可再生能源规划到飓风和洪水防范等各项工作提供了重要信息。对于公众而言,天气是Google搜索中最受欢迎的非品牌查询。传统的数值预测方法基于精心定义的物理方程,这些方程为大气复杂动态提供了非常有用但并非完美的近似。同时,这些方法的计算成本也很高昂。2023年,我们发布了一个深度学习系统,能够提前10天预测天气状况,在准确性和预测速度方面均优于传统模型。如下文所述,利用AI预测天气变量还有助于缓解和应对气候变化。例如,当飞机飞过潮湿区域时,可能会形成凝结尾迹,从而加剧航空业对全球变暖的影响。Google科学家最近利用AI预测潮湿区域可能出现的时间和地点,以帮助飞行员避免飞越这些区域。在许多情况下,AI将丰富而非取代传统的复杂系统建模方法。例如,基于主体的建模通过模拟个体(如企业和消费者)之间的交互,来理解这些交互如何影响更大、更复杂的系统(如经济)。传统方法要求科学家事先指定这些计算主体应如何行为。我们的研究团队最近概述了科学家如何利用大语言模型(LLMs)创建更灵活的生成式主体,这些主体能够进行交流并采取行动(如搜索信息或进行购买),同时还能对这些行动进行推理和记忆。科学家还可以利用强化学习来研究这些主体在更动态的模拟中如何学习和适应其行为,例如在新能源价格出台或疫情应对政策实施时的反应。
众多重要的科学问题都伴随着数量庞大到几乎无法理解的潜在解决方案。例如,生物学家和化学家的目标在于确定诸如蛋白质等分子的结构、特性及功能。这类工作的一个目标就是设计出这些分子的新型版本,以用作抗体药物、塑料降解酶或新材料。然而,在设计一种小分子药物时,科学家们面临着超过10400种选择。这种庞大的解空间并不仅限于分子领域,而是许多科学问题的常态,比如寻找数学问题的最佳证明、计算机科学任务的最有效算法,或是计算机芯片的最佳架构。传统上,科学家们依靠直觉、试错法、迭代或暴力计算等方法的组合来寻找最佳的分子、证明或算法。但这些方法在探索庞大的潜在解空间时显得力不从心,导致许多更优解未被发掘。人工智能(AI)能够开辟这些解空间的新领域,同时更迅速地锁定那些最有可能可行且有用的解决方案——这是一项需要精妙平衡的任务。例如,在7月,我们的AlphaProof和AlphaGeometry 2系统在国际数学奥林匹克竞赛(一项精英高中生竞赛)中正确解决了六道题目中的四道。这些系统利用我们的Gemini大语言模型架构,为给定的数学问题生成大量新颖的想法和潜在解决方案,并结合基于数学逻辑的系统,迭代地逼近最有可能正确的候选解。
随着人工智能在科学领域的日益广泛应用,以及早期人工智能科学助理的出现,人们开始质疑人工智能的能力究竟能多快、多远地发展,以及这对人类科学家意味着什么。当前基于大语言模型(LLM)的人工智能科学助理在相对狭窄的任务范围内,如支持文献综述方面,仅做出了相对较小的贡献。有合理的短期预测认为,它们将在这些任务上表现得更加出色,并有能力承担更具影响力的任务,如帮助生成有力的假设,或帮助预测实验结果。
然而,当前的系统在人类科学家所依赖的更深层次创造力和推理能力方面仍显不足。为提升这些人工智能能力,人们正在付出努力,例如通过在我们的AlphaProof和AlphaGeometry 2实例中,将大型语言模型与逻辑推理引擎相结合,但还需取得更多突破。对于那些需要在湿实验室进行复杂操作、与人类参与者互动或涉及冗长过程(如监测疾病进展)的实验,实现加速或自动化将更为困难。尽管如此,这些领域的研究也在进行中,例如新型实验室机器人和自动化实验室的研发。即使人工智能系统的能力得到提升,最大的边际效益仍将来自于将其部署在能够发挥其相对优势的用例中——如从海量数据集中快速提取信息的能力——以及帮助解决科学进步中的真正瓶颈,如上文概述的五个机遇,而非自动化人类科学家已经做得很好的任务。随着人工智能使科学变得更经济、更强大,对科学和科学家的需求也将增长。例如,近期的突破已经催生了蛋白质设计、材料科学和天气预报等领域的一系列新兴创业公司。与其他领域不同,尽管过去有人持相反观点,但未来对科学的需求似乎几乎没有上限。新的进步总是在科学知识的地图上开辟出新的、不可预测的领域,人工智能也将如此。正如赫伯特·西蒙所设想的那样,人工智能系统也将成为科学研究的对象,科学家将在评估和解释其科学能力,以及开发新型人机结合的科学系统中发挥主导作用。
如果你有更好的文章,欢迎投稿!
稿件接收邮箱:nami.liu@pasuntech.com