MindSpore AI科学计算 | 最新综述文章梳理量子到宏观尺度AI4S共性特点
MindSpore AI科学计算 | 最新综述文章梳理量子到宏观尺度AI4S共性特点
**作者:**于璠 来源:知乎
背景
人工智能(AI)的发展给科学发现引入了新的范式。如今AI已经开始改进、加速和使能我们对广泛的空间和时间尺度下的自然现象的理解,从而促进自然科学的发展,并催生了AI4Science的新研究领域。近期,一篇由60多名作者联合撰写的综述论文《Artificial Intelligence for Science in Quantum, Atomistic, and Continuum Systems》在亚原子、原子、连续体系的子领域给出了一份深入浅出的技术总结。我们在这里提取了这篇综述中的技术主干,并重点对如何构造对称变换下的等变模型进行了梳理。
1、简介
在1929年,量子物理学家保罗狄拉克指出:“对于大部分物理学和全部化学的数学理论所需的基础物理法则已经完全被我们所知,而困难在于,这些法则的精确应用会导致复杂得难以解决的方程。”从量子物理中的薛定谔方程,到流体力学中的纳维斯托克斯方程都是如此。深度学习可以加速这些方程的求解。用传统仿真方法的结果作为训练数据,一旦训练完成,这些模型可以用比传统仿真快得多的速度进行预测。
在生物学等其他领域,底层的生物物理过程可能并未被完全理解,也可能最终无法用数学方程来描述。这些情况下,可以使用实验生成的数据来训练深度学习模型,例如蛋白质预测模型AlphaFold、RoseTTAFold、ESMFold等通过实验获取的3D结构进行训练,使得计算预测蛋白质3D结构的准确性能够与实验结果相媲美。
1.1科学领域
根据被建模的物理体系的空间和时间尺度,文中关注的科学领域如下图中的概览所组织。

小尺度:量子力学使用波函数研究最小尺度的物理现象,其服从的薛定谔方程描述了量子系统的完全动力学过程,但带来了指数级的复杂性。密度泛函理论(DFT)和从头算量子化学方法是广泛应用于实践中的第一性原理方法,用于计算分子和材料的电子结构和物理性质,并可进一步推导分子和固体的电子、机械、光学、磁性和催化等性质。然而这些方法仍然在计算上昂贵,限制了它们一般只在小体系(~1000个原子)中使用。而AI模型可以在提升速度和精度上提供帮助。
中尺度:小分子通常有几十到几百个原子,在许多化学和生物过程中发挥重要的调节和信号传递作用。蛋白质是由一个或多个氨基酸链组成的大分子。氨基酸序列决定了蛋白质结构,而结构又决定了它们的功能。材料科学研究加工、结构、性能和材料的关系。分子相互作用研究如何通过分子相互作用来执行许多物理和生物功能,如配体-受体和分子-材料相互作用。在这些领域中,AI在分子表征和生成、分子动力学、蛋白质结构预测和设计、材料性质预测和结构生成等方面都有很多的进展。
大尺度:连续力学使用偏微分方程对宏观水平的时间和空间演化的物理过程进行建模,包括流体流动、热传递、电磁波等。AI方法在提高计算效率、泛化性、多分辨率分析等问题上提供了一些解决方法。
1.2 AI技术领域
在科学人工智能的多个领域存在一系列共同的技术挑战。
**对称性:**对称性是非常强的归纳偏执,因此AI4Science的一个关键挑战是如何在AI模型中有效地集成对称性。
**可解释性:**可解释性在AI4Science中对于理解物理世界的规律至关重要。
**分布外(OOD)泛化和因果性:**为了避免为每个不同设置生成训练数据,需要识别能够进行OOD泛化的因果因素。
**基础模型和大语言模型:**自然语言处理任务中的基础模型在自监督或可泛化监督下进行预训练,以少样本或零样本的方式执行各种下游任务。文中提供了对这种范式如何加速AI4Science发现的观点。
**不确定性量化(UQ):**研究如何在数据和模型不确定性下保证稳健的决策制定。
**教育:**为了便于学习和教育,文中列出了作者认为有用资源的分类列表,并且提供了关于社区如何能更好地促进AI与科学和教育融合的观点。
**2、**对称性,等变性,及其理论
在许多科学问题中,感兴趣的对象通常位于3D空间中,而任何关于该物体的数学表示都依赖于一个参考坐标系,使得这样表示与坐标系有关。然而,自然界并不存在坐标系,所以需要与坐标系无关的表示。因此,AI4Science的关键挑战之一就是如何达成坐标系变换下的不变性或等变性。
2.1 概述
对称性指的是物理现象的属性在诸如坐标变换的某种变换下保持不变。如果系统中存在某些对称性,则预测目标自然地在对应的对称变换下不变或等变。例如,当预测3D分子的能量时,当3D分子平移或旋转时预测值保持不变。一个可选的策略来达成对称性感知的学习是在监督学习中采用数据增强,具体就是对输入数据和标签进行随机的对称性变换来强迫模型输出近似的等变性预测。但这样做有诸多缺点:
1)考虑到选择坐标系的额外自由度,模型需要更大的容量来表征原本在固定坐标系中简单的模式;
2)许多对称变换,如平移,可以产生无限多的等变样本,使得有限的数据增强难以完全反映出数据中的对称性;
3)在一些情况下,需要建立非常深的模型来达到好的预测效果,如果模型每一层都不能保持等变性,而希望整体输出等变性的预测将会很困难;
4)在诸如分子建模等科学问题上,提供一个在对称性变换下健壮的预测,使得可以以一种可信的方式使用机器学习是至关重要的。
出于数据增强的诸多缺点,越来越多的研究关注于设计满足对称性要求的机器学习模型。在对称性适配的架构下,无需数据增强,模型也能专注于学习目标预测任务。
2.2 离散对称变换下的等变性
这一节中作者提供了在AI模型中保持离散对称变换下的等变性的一个例子。这个示例问题是模拟在一个2D平面内的标量流场从这一时刻到下一时刻的映射。当输入流场旋转90、180、270度时,输出流场也会发生相应的旋转,其数学表示如下:

其中f表示流场映射函数,R代表离散的旋转变换。Cohen等人提出了等变群卷积神经网络(G-CNNs)来解决这个问题。其最简单的基本组件是升维卷积:

1)先对卷积核进行对称变换中的所有角度的旋转,并用旋转后的卷积核对输入进行相应的卷积操作得到多个特征层,把这些特征层在新产生的这个旋转维度α堆叠在一起;2)在这个旋转维度α进行池化,这样得到的输出在输入X旋转时会产生相应的旋转。
由于池化操作的存在,虽然保持了等变行,但这些特征不能承载方向信息,通常的G-CNNs采用如下图所示结构:

首先用旋转卷积核对输入进行升维,然后使用多层群卷积层在保持旋转维度的情况下使每层特征都符合旋转等变性的要求,最后再使用池化层消除旋转维度。这样可以使得中间特征层更好地检测到特征在相对位置和朝向上的模式。中间特征层的等变性的含义是:特征层在旋转变换下相应旋转,并且旋转维度上的顺序也发生轮换;而所使用的群卷积层中卷积核的旋转和轮换设计,也使得输出的特征层能够保持这一等变性特征。
2.3-2.5 3D连续变换的等变性模型构建
在很多科学问题中,我们关注的是3D空间中连续的旋转和平移对称性,例如化学分子的结构发生旋转和平移,预测的分子属性构成的向量将发生对应的变换。这些连续的旋转变换R和平移变换t组成SE(3)群中的元素,并且这些变换可以表示为向量空间中的变换矩阵。不同的向量空间中的变换矩阵可能不同,但这些向量空间都可以分解为相互独立的子向量空间。每个子空间内有相同的变换规律,即群中所有的变换元素作用到子空间的向量上得到的向量还在该子空间内,因此群中的变换元素可以用该子空间上不可约简的变换矩阵表示。例如,总能量、能隙等标量在SE(3)群元素的作用下保持不变,其变换矩阵表示为D^0(R)=1;力场等3D向量下SE(3)群元素的作用下发生相应的旋转,其变换矩阵表示为D^1(R)=R;在更高维的向量空间中,D^l(R)是2l+1维的方阵。这些变换矩阵D^l(R)称为旋转R对应的l阶Wigner-D矩阵,而对应的子向量空间成为SE(3)群的l阶不可约不变子空间,其中的向量称为l阶等变向量。而在平移变换下,这些向量总是保持不变,因为我们关心的性质只与相对位置有关。
通常把3D几何信息映射到SE(3)群的不变子空间中的特征的方法是采用球谐函数映射。球谐函数Y^l将一个3维向量映射成一个2l+1维向量,其代表输入向量分解成2l+1个基球谐函数时的系数。如下图所示,由于只使用了有限数量的基,该三维向量代表的球面上的delta函数会有一定的展宽。




其中g是空间变换群中的变换,ρ_in、ρ_out分别代表该变换在输入和输出特征空间中的表示(即转换矩阵)。
至此,文章对对称性和等变性的理论阐述基本结束,后面即是对第一章中列出的多个领域的分别概述。
参考文献
[1] Ren P, Rao C, Liu Y, et al. PhyCRNet: Physics-informed convolutional-recurrent network for solving spatiotemporal PDEs[J]. Computer Methods in Applied Mechanics and Engineering, 2022, 389: 114399.
[2]https://www.sciencedirect.com/science/article/abs/pii/S0045782521006514?via%3Dihub
【1】 Xuan Zhang, Limei Wang, Jacob Helwig, et al. 2023. Artificial Intelligence for Science in Quantum, Atomistic, and Continuum Systems. arXiv: https://arxiv.org/abs/2307.08423
【2】 Taco Cohen and Max Welling. 2016. Group Equivariant Convolutional Networks. In International Conference on Machine Learning. PMLR, 48:2990–2999.
【3】 Nathaniel Thomas, Tess Smidt, Steven Kearnes, et al. 2018. Tensor field networks: Rotation-and translation-equivariant neural networks for 3d point clouds. arXiv: https://arxiv.org/abs/1802.08219
Maurice Weiler, Mario Geiger, Max Welling, et al. 2018. 3D Steerable CNNs: Learning Rotationally Equivariant Features in Volumetric Data. In Advances in Neural Information Processing Systems
往期回顾
MindSpore AI科学计算系列 | 基于PhyCRNet求解时空域PDEs
MindSpore AI科学计算系列 | 薛定谔方程的巧妙求解,基于FermiNet高精度求解波函数