代码
MindSpore AI科学计算系列(25):几何深度学习系列—对称性与守恒律

MindSpore AI科学计算系列(25):几何深度学习系列—对称性与守恒律

MindSpore AI科学计算系列(25):几何深度学习系列—对称性与守恒律

几何深度学习是一个新兴的研究领域,它试图将深度学习的方法和原理推广到非欧几里得数据上,例如图、网格、曲面等。这些数据在自然科学、社会科学、计算机科学等领域有着广泛的应用,但是传统的深度神经网络往往不能很好地处理它们,因为它们缺乏对数据底层几何结构和对称性的考虑。

image.png

题图

在这个系列文章中,我们以[1, 2]两篇长文及相关报告为基础,将从统一的对称性视角,介绍几何深度学习的基本概念、主要方法和最新进展,以及它在不同领域、尤其是科学领域的应用。我们将展示如何从更高更统一的角度看待各种不同的神经网络的本质,进而利用微分几何、代数拓扑和微分方程等数学工具,来设计有效和可解释的神经网络架构,分析和优化几何深度学习模型。

对称性本质是变换下的不变性。例如一个图中的一个具有反射对称的蝴蝶在反射变换下不变,或者一个旋转对称的势能面在绕z轴旋转变换下不变。

image.png

图1:对称性

1. 对称性与几何学

早期人们对几何学的研究与认识来源于欧几里得几何,这也是日常生活中最为常见的几何学。十九世纪是几何学的黄金时代,在数学家尝试证明欧几里得几何第五公设的实践中,发展出了如黎曼几何罗巴切夫斯基几何这类具有内禀弯曲结构的几何学。另一方面,通过放宽对诸如角度、距离、平行性这类概念,发展出了仿射几何射影几何等不同几何学分支。

十九世纪末,面对各类不同的几何学分支,德国数学家菲利克斯·克莱因在埃尔朗根大学的教授就职演讲中提出的一个题为《新几何研究上比较的观点》研究纲领,被称为埃尔朗根纲领

埃尔朗根纲领以对称性作为第一原理,用变换群的观点来统一和分类各种几何学,把几何学定义为一个变换群之下的不变性质的理论。埃尔朗根纲领对于几何学基础和统一性的探索,对后来的数学和物理学产生了深远的影响,为抽象空间和对称性的研究提供了一个新的视角和方法。

2. 对称性与物理学

二十世纪初是物理学的黄金年代,现代物理学两大支柱——相对论与量子力学先后建立。另一方面,德国数学家埃米·诺特提出诺特定理,表达了每个连续对称性都有一个相关的守恒定律,反之亦然。得益于诺特定理,物理学研究方法范式以及科学哲学发生了巨大的变化,人们发现对称性可能是比基本方程更为基础的物理学描述方式。

例如,从时间的平移对称性可以得到经典力学中的能量守恒定律;从空间的平移对称性可以得到动量守恒定律,对应牛顿第二定律;量子力学中的整体U(1)对称性可以得到电荷守恒定律,对应连续性方程;而局域U(1)对称性可以推导出电磁学中的麦克斯韦方程组

诺特定理帮助物理学家在物理的任何一般理论中通过分析各种使得所涉及的定律的形式保持不变的变换而获得深刻的洞察力。诺贝尔物理学奖得主、凝聚态物理学奠基人菲利普·安德森提出,“虽然有一点夸张,物理学就是对称性的研究”。

3. 对称性的描述

对称性通过群论来描述。在群论中,对称性的变换抽象为群的元素,而群的结构反映了对称性的本质。

我们简单回顾一下群论的基本概念:群是一种由一些元素和一种运算组成的代数结构,满足以下四个条件:

· 封闭性:群中任意两个元素的运算结果仍然在群中。

· 结合性:群中任意三个元素的运算满足结合律。

· 单位元:群中存在一个特殊的元素,与任何其他元素运算都不改变其值。

· 逆元:群中每个元素都有一个与之对应的逆元,与之运算得到单位元。

例如,整数集合和加法运算构成一个群,因为它们满足以上四个条件。而整数集合和乘法运算就不构成一个群,因为它们不满足逆元的条件。

一个群元素作为一个变换可以作用的集合的元素上,称之为群作用(区分左作用和右作用)。集合元素在变换群的作用下会跑动,被整个群作用后所有能跑到的位置的集合就是轨道

在物理学中,我们经常用群来表示物理系统或物理定律在某种变换下的不变性。例如,空间平移、空间旋转、时间平移、规范变换等都可以用群来描述。这些变换可以看作是把物理系统或物理定律从一个状态映射到另一个状态的操作,而这些状态之间对应于同一轨道。

4. 规范对称性

我们在描述很多抽象事物的时候,往往需要一个参照或者标准,称之为规范。

image.png

图2:规范

图2中展示了几个常见的规范的例子。(a) 空间中点的位置是一个抽象的数学对象,为了数值描述具体的位置,我们需要选取一个坐标系,这样就可以用一组坐标来描述抽象的点的位置。但是位置本身是与坐标系的选取无关的,当选择不同坐标系时,尽管坐标会改变,但位置本身是不变的;(b) 集合元素本身是无序的,但我们描述集合的时候,需要定一个顺序。当选择不同顺序时,集合的描述会改变,但集合本身是不变的;(c) 我们在描述势能的时候,需要选择一个势能零点,比如地面或无穷远点。虽然不同势能零点下势能的值会发生改变,但势能本身代表的物理量与势能零点的选取无关;(d) 一个由顶点和边组成,描述图的时候需要对顶点进行编号。不同的编号会产生不同的邻接矩阵,但对应的图本身与编号无关。

可以看出,规范的本质是某种冗余。 规范对称性是一种特殊的对称性,它是指物理系统或物理定律在某种依赖于规范的内部变换下保持不变的性质。规范对称性不是真正意义上的对称性,而是一种理论描述中引入的冗余自由度。这意味着,规范变换并不改变物理系统或物理定律的本质,而只改变它们的表象。

规范变换同样可以用群论来描述。例如图3中一个三元素的集合,有六种顺序选取,不同顺序选取之间,通过S3置换群变换相联系,在S3置换群下构成了一个轨道。

image.png

图3:规范变换群

例如前面提到的,电磁场在整体U(1)规范变换下保持不变,意味着电荷守恒,这反映了电荷在任何过程中都不会被创造或消灭。而电磁场在局部U(1)规范变换下保持不变,意味着电荷密度和电流密度构成一个四维散度为零的矢量。

在下一篇文章中,我们将看到,如何使用对称性的概念,从统一的视角理解与分类各种不同种类的神经网络架构。

参考文献:

[1] Bronstein, Michael M., et al. "Geometric deep learning: Grids, groups, graphs, geodesics, and gauges." arXiv preprint arXiv:2104.13478 (2021).

[2] Weiler, Maurice, et al. "Coordinate Independent Convolutional Networks--Isometry and Gauge Equivariant Convolutions on Riemannian Manifolds." arXiv preprint arXiv:2106.06020 (2021).