这是用户在 2024-10-5 9:16 为 https://app.immersivetranslate.com/pdf-pro/09ffdca8-a99e-4af9-a763-0a4897fa21a0 保存的双语快照页面,由 沉浸式翻译 提供双语支持。了解如何保存?
 研究论文


用于求解微分方程的分层归一化物理信息神经网络:固体力学问题的应用


Thang Le-Duc a ^("a "){ }^{\text {a }} 、Seunghye Lee a a ^(a){ }^{\mathrm{a}} 、H. Nguyen-Xuan b ^("b ")^{\text {b }} 、Jaehong Lee a , a , ^(a,**){ }^{\mathrm{a}, *}

a a ^(a){ }^{a} 世宗大学建筑工程系深度学习建筑研究中心,地址:209 Neungdong-ro, Gwangiin-gu, Seoul 05006, Republic of Korea

b 越南胡志明市 HUTECH 大学 CIRTECH 学院

 文章信息


数据集链接:https://github.com/ThangLe-duc/ hnPINN_for_PDEs

 关键词:


物理信息神经网络 层次归一化物理信息神经网络

 非立体化

分层标准化


偏微分方程

 固体力学

 摘要


物理信息神经网络(PINNs)在精确求解偏微分方程(PDEs)时通常会遇到很大的困难,这是因为在训练过程中梯度失效导致了许多病理现象。本文从理论和实验两方面深入研究了 PINN 方法的梯度失调问题。特别是,常规 PINN 方法可以对微不足道的问题进行良好预测,但当其 PDE 系数和/或物理域大小发生变化时,可能无法学习到解决方案。此外,理论分析推断了神经网络结构对 PINN 训练质量的影响,相关实验也证实,使用大宽度多层感知器(MLP)有利于稳定 PINN 训练过程。为了克服上述限制,我们从已发展的理论出发,设计了一种使用分层归一化技术(hnPINN)的新型 PINN 方法。hnPINN 方法的主要思想是:一方面,将原始 PDE 系统转化为两种拟议的无量纲形式之一,以减轻 PDE 系数和域大小的负面影响;另一方面,利用二次输出标度灵活校准梯度流,以有效训练并提高解的精确度。二次输出标度的确定是受 hnPINN 梯度流理论分析的启发,通过启发式框架制定的。 一些典型的 PDE 和固体力学中常见问题的研究结果有力地证实了 hnPINN 的高效性,与 vanilla PINN 和无维度 PINN(ndPINN)相比,hnPINN 在求解精度、收敛性和性能稳定性方面都更胜一筹。作为一种预处理程序,hnPINN 方法不受网络结构的影响,而且与其他最先进的 PINN 模型结合使用,可有效解决实际中的难题。

 1.导言


数十年来,人们一直在开发数值方法来解决多个科学和工程领域的 PDE 问题。然而,这些方法往往需要花费大量精力才能正确建立,计算成本高昂,而且在解决高维问题时表现不佳。鉴于传统方法的这些局限性以及深度学习(DL)在科学和工程领域的突破性应用,科学深度学习(SciDL)近年来得到了深入研究,并取得了显著成就。物理信息神经网络(PINNs)是Raissi等人(2019)最近提出的一种方法,是这种方法的代表,受到了SciDL界的极大关注。它的核心思想是将由 PDE 拟定的物理知识嵌入一个


然后训练深度神经网络(DNN)以生成解决方案。这些步骤可以通过许多现代深度学习软件包提供的自动微分技术(Baydin 等人,2017 年)轻松实现,如 Tensorflow(Abadi 等人,2016 年)、PyTorch(Paszke 等人,2019 年)、Theano(Bergstra 等人,2010 年)和 Matlab 的深度学习工具箱(Paluszek 和 Thomas,2020 年)。

PINN 在不同的工程任务中成功地取得了显著成果,包括计算力学(Li 等人,2021 年)、CFD(Raissi 等人,2020 年)、计算生物医学(Kissas 等人,2020 年)、材料设计(Zhang 和 Gu,2021 年)以及机械故障诊断(Ni 等人,2023 年;Feng 等人,2023 年)。然而,文献中也揭示了 PINN 方法在理论和实践方面的一些弱点。Wang 等人,2023;Feng 等人,2023。

(Rahaman 等人(2022b,2021a)利用神经正切核(NTK)理论描述了虚无 PINN 方法的两个重要限制,包括梯度流不平衡和频谱偏差现象(Rahaman 等人,2019 年)。Krishnapriyan 等人(2021 年)通过实证研究发现,PINN 性能对 PDE 系数值非常敏感。具体来说,PINN 方法可以有效地学习具有共同系数的 PDE 解,但当这些系数值稍有变化时,PINN 方法就可能失败,这被认为是 PINN 训练问题的非条件损失景观造成的。这使得优化过程可能陷入一些不良的局部最优点或鞍点,从而无法提供高质量的预测(Wang 等,2022a)。Xiang 等人(2022 年)、McClenny 和 Braga-Neto (2022 年)等人也报告了梯度病理学,并提出了一些以平衡损失项为重点的处理过程。然而,在 PINN 问题的背景下,这些研究的理论本质仍不明确,而且在训练过程中需要通过自适应策略调整加权系数,这需要外部计算工作。上述局限性清楚地表明,在实际应用传统 PINN 解决各种 PDE 问题时面临巨大挑战。

在处理实际问题时,由于不同组件的物理特性各不相同,或由于设计优化和不确定性量化的要求,PDE 系数和域的大小可能会有很大差异,这就需要考虑各种设置。因此,在将原始 PINN 应用于这些问题时,非三维 PDE 系数导致的梯度失效模式(Krishnapriyan 等人,2021 年)可能会成为一个重大障碍。最近,无维度 PINN(ndPINN)方法已被成功应用于解决多个 CFD 实际应用问题,如血管流动建模(Kissas 等人,2020 年)、流动与传热(Laubscher 和 Rousseau,2022 年)以及气体轴承(Li 等人,2022 年)。然而,ndPINN 并没有彻底解决梯度失效问题,仍然需要对加权系数进行微调,以平衡损失项之间的贡献,从而获得良好的结果(Laubscher 和 Rousseau,2022 年;Li 等人,2022 年)。这就产生了许多需要控制的超参数,从而使ndPINN训练的实现变得复杂和耗时。

本研究的动机来自上述两个限制,包括梯度流的不平衡和传统 PINN 方法对适当估计惩罚系数的要求。特别是,我们深入探讨了 PINN 方法中条件不良损失景观现象的澄清,并随后提出了一种替代模型,以有效解决 PDE 问题,并将重点放在非难情况上。本文的主要贡献如下。

  • 我们从理论和实验两个角度阐明,条件不良损失函数(Kr ishnapriyan 等人,2021 年)的失效不仅源于非琐碎的 PDE 系数,还源于问题大小和所使用的网络结构。具体来说,考虑到具有一些合理假设的特定问题,我们从理论上证明,损失分量的梯度大小随问题系数、域范围和 DNN 宽度呈指数变化。结果表明,当 PDE 系数和/或域的大小不是三维的,且 DNN 结构选择不当时,即使采用无维度程序(即 ndPINN),PINN 训练过程的梯度流也很容易爆炸或消失。这使得即使闭式结果非常简单,训练过程也很难收敛到合适的解。此外,理论结果还表明,大宽度 DNN 可以部分缓解上述障碍,这一点也得到了相关实验的证实。

  • 我们提出了一种新颖的 hnPINN 方法来处理无条件损失景观,从而有效解决现实世界中的 PDE 问题。hnPINN 实现了建议的分层归一化,包括以下两个连续阶段:(1) 通过最小化 PDE 系数和域大小的牵连,使用初级标度器将原始 PDE 转换为两个拟议的非维度化模型之一;以及 (2) 校准次级输出标度器,以灵活控制梯度流的大小,从而提高训练效率。

  • 我们阐明了次级输出标度在分层归一化公式中的参与,以证明其对两个设计的 hnPINN 模型梯度动态的重要性和不同作用。因此,我们发明了一种启发式程序,以经济的方式有效估算次级输出标度的满意值。

  • 我们通过固体力学中的几个一维(1D)和二维(2D)应用,证明了所设计的 hnPINN 与传统 PINN 和 ndPINN 相比具有更优越的性能。值得注意的是,虽然相关问题平滑而简单,但当问题系数设置为非三维数值时,由于其训练过程中的非条件特性,仍给 PINN 方法带来了巨大挑战。实证结果表明,对于所有考虑的问题,hnPINN 模型在求解精度和收敛速度方面完全优于其他两种竞争方法。此外,hnPINN 预测结果也比使用细网格的线性有限元法(FEM)解决方案更加精确。

本文的结构安排如下。第 2 节提供了传统 PINN 和 ndPINN 方法求解 PDE 问题的数学说明。第 3 节阐述了针对条件不佳损失景观现象的理论和实验结果,以及对所设计的 hnPINN 方法的描述,并进行了相应的分析和经验讨论。第 4 节介绍了针对典型一维和二维固体力学问题的参数研究和数值结果,以及所提方法与常规 PINN、ndPINN 和 FEM 的比较。最后,第 5 节讨论了结论和未来可能开展的工作。


2.物理信息神经网络概述


2.1.物理信息神经网络


本节将简要回顾 PINN 方法。许多科学和工程问题都可以看作是如下形式的拟合 PDEs

D [ u ( x ) , λ D ] = f ( x ) , x Ω D u ( x ) , λ D = f ( x ) , x Ω D[u(x),lambda_(D)]=f(x),xin Omega\mathcal{D}\left[u(\mathbf{x}), \lambda_{D}\right]=f(\mathbf{x}), \mathbf{x} \in \Omega
B [ u ( x ) , λ B ] = g ( x ) , x Ω B u ( x ) , λ B = g ( x ) , x Ω B[u(x),lambda_(B)]=g(x),xin del Omega\mathcal{B}\left[u(\mathbf{x}), \lambda_{B}\right]=g(\mathbf{x}), \mathbf{x} \in \partial \Omega

其中, D D D\mathcal{D} B B B\mathcal{B} 分别为治理算子和边界算子, λ D λ D lambda_(D)\lambda_{D} λ B λ B lambda_(B)\lambda_{B} 分别为治理 PDE 和边界 PDE 的问题系数, f ( x ) f ( x ) f(x)f(\mathbf{x}) g ( x ) g ( x ) g(x)g(\mathbf{x}) 分别为相应的强迫函数和边界函数、 u ( x ) u ( x ) u(x)u(\mathbf{x}) 是 PDE 的潜解, x x x\mathbf{x} 是属于有界域 Ω R n Ω R n Omega subR^(n)\Omega \subset \mathbb{R}^{n} n n nn 维向量, Ω Ω del Omega\partial \Omega 表示 Ω Ω Omega\Omega 的边界。值得注意的是,对于时间相关问题,时间 t t tt 被视为 x , Ω x , Ω x,Omega\mathbf{x}, \Omega 的附加分量,而 Ω Ω del Omega\partial \Omega 则表示时空域和边界。对于 Raissi 等人(2019 年)提出的传统 PINN 方法,解 u ( x ) u ( x ) u(x)u(\mathbf{x}) 可直接用神经网络(NN)近似,即

u ( x ) u ^ ( x , θ ) u ( x ) u ^ ( x , θ ) u(x)~~ hat(u)(x,theta)u(\mathbf{x}) \approx \hat{u}(\mathbf{x}, \boldsymbol{\theta})

其中, u ^ u ^ hat(u)\hat{u} 代表 NN 输出, θ θ theta\theta 是通过最小化复合损失函数得到的 NN 参数向量,其值为

L ( x , θ ) = L D ( x , θ ) + L B ( x , θ ) L ( x , θ ) = L D ( x , θ ) + L B ( x , θ ) L(x,theta)=L_(D)(x,theta)+L_(B)(x,theta)\mathcal{L}(\mathbf{x}, \theta)=\mathcal{L}_{\mathcal{D}}(\mathbf{x}, \theta)+\mathcal{L}_{\mathcal{B}}(\mathbf{x}, \theta)

其中, L D ( x , θ ) L D ( x , θ ) L_(D)(x,theta)\mathcal{L}_{\mathcal{D}}(\mathbf{x}, \boldsymbol{\theta}) L B ( x , θ ) L B ( x , θ ) L_(B)(x,theta)\mathcal{L}_{\mathcal{B}}(\mathbf{x}, \boldsymbol{\theta}) 分别是 (1) 的均方残差,它们通过问题域 Ω Ω Omega\Omega 内部和边界上的随机配准点近似计算如下

L D ( x , θ ) = 1 N D i = 1 N D [ D [ u ^ ( x i ( D ) , θ ) , λ D ] f ( x i ( D ) ) ] 2 L D ( x , θ ) = 1 N D i = 1 N D D u ^ x i ( D ) , θ , λ D f x i ( D ) 2 L_(D)(x,theta)=(1)/(N_(D))sum_(i=1)^(N_(D))[D[( hat(u))(x_(i)^((D)),theta),lambda_(D)]-f(x_(i)^((D)))]^(2)\mathcal{L}_{\mathcal{D}}(\mathbf{x}, \boldsymbol{\theta})=\frac{1}{N_{D}} \sum_{i=1}^{N_{D}}\left[\mathcal{D}\left[\hat{u}\left(\mathbf{x}_{i}^{(D)}, \boldsymbol{\theta}\right), \lambda_{D}\right]-f\left(\mathbf{x}_{i}^{(D)}\right)\right]^{2}
L B ( x , θ ) = 1 N B i = 1 N B [ B [ u ^ ( x i ( B ) , θ ) , λ B ] g ( x i ( B ) ) ] 2 L B ( x , θ ) = 1 N B i = 1 N B B u ^ x i ( B ) , θ , λ B g x i ( B ) 2 L_(B)(x,theta)=(1)/(N_(B))sum_(i=1)^(N_(B))[B[( hat(u))(x_(i)^((B)),theta),lambda_(B)]-g(x_(i)^((B)))]^(2)\mathcal{L}_{\mathcal{B}}(\mathbf{x}, \boldsymbol{\theta})=\frac{1}{N_{B}} \sum_{i=1}^{N_{B}}\left[\mathcal{B}\left[\hat{u}\left(\mathbf{x}_{i}^{(B)}, \boldsymbol{\theta}\right), \lambda_{B}\right]-g\left(\mathbf{x}_{i}^{(B)}\right)\right]^{2}

其中 x i ( D ) x i ( D ) x_(i)^((D))\mathbf{x}_{i}^{(D)} x i ( B ) x i ( B ) x_(i)^((B))\mathbf{x}_{i}^{(B)} 分别是由 Ω Ω Omega\Omega 内部和边界 Ω Ω del Omega\partial \Omega 产生的第 i i ii 个拼合点。 N D N D N_(D)N_{D} N B N B N_(B)N_{B} 分别是用于内部和边界的拼合点总数。实际上,PINN 训练过程需要进行微分计算,通过自动微分来评估损失函数及其梯度(Baydin 等人,2017 年),从而通过基于梯度的优化算法更新 DNN 参数向量 θ θ theta\theta


2.2.无维度物理信息神经网络


在实际应用中,公式 (1) 中物理量的大小阶通常变化很大,这可能会由于梯度爆炸或消失现象而损害 PINN 训练过程。为了缓解这一限制,最近 Kissas 等人(2020 年)、Laubscher 和 Rousseau(2022 年)、Li 等人(2022 年)、Fathi 等人(2020 年)、Laubscher(2021 年)等人采用了 ndPINN 方法,该方法代替自身求解问题(1)的非维化形式。在数学上,PDE 系统 (1) 可以通过非维度化程序(Langtangen 和 Pedersen,2016 年)转化为具有低维度参数空间的非维度化系统,如下所示

D [ u ¯ ( x ) , λ ¯ D ] = f ( x ) , x Ω ¯ D u ¯ ( x ¯ ) , λ ¯ D = f ( x ¯ ) , x ¯ Ω ¯ D[( bar(u))( bar(x)), bar(lambda)_(D)]=f( bar(x)), bar(x)in bar(Omega)\mathcal{D}\left[\bar{u}(\overline{\mathbf{x}}), \bar{\lambda}_{D}\right]=f(\overline{\mathbf{x}}), \overline{\mathbf{x}} \in \bar{\Omega}
B [ u ¯ ( x ) , λ ¯ B ] = g ( x ) , x Ω ¯ B u ¯ ( x ¯ ) , λ ¯ B = g ( x ¯ ) , x ¯ Ω ¯ B[( bar(u))( bar(x)), bar(lambda)_(B)]=g( bar(x)), bar(x)in del bar(Omega)\mathcal{B}\left[\bar{u}(\overline{\mathbf{x}}), \bar{\lambda}_{B}\right]=g(\overline{\mathbf{x}}), \overline{\mathbf{x}} \in \partial \bar{\Omega}

其中 λ ¯ D λ ¯ D bar(lambda)_(D)\bar{\lambda}_{D} λ ¯ B λ ¯ B bar(lambda)_(B)\bar{\lambda}_{B} 是无量纲化问题 (5) 的系数,因此 dim ( λ ¯ D ) dim ( λ D ) dim λ ¯ D dim λ D dim( bar(lambda)_(D)) <= dim(lambda_(D))\operatorname{dim}\left(\bar{\lambda}_{D}\right) \leq \operatorname{dim}\left(\lambda_{D}\right) dim ( λ ¯ B ) dim ( λ B ) , u ¯ ( x ) dim λ ¯ B dim λ B , u ¯ ( x ¯ ) dim( bar(lambda)_(B)) <= dim(lambda_(B)), bar(u)( bar(x))\operatorname{dim}\left(\bar{\lambda}_{B}\right) \leq \operatorname{dim}\left(\lambda_{B}\right), \bar{u}(\overline{\mathbf{x}}) 是 PDE 的无量纲化解, x x ¯ bar(x)\overline{\mathbf{x}} 是对应于无量纲域 Ω ¯ Ω ¯ bar(Omega)\bar{\Omega} 和边界 Ω ¯ Ω ¯ del bar(Omega)\partial \bar{\Omega} 的无量纲变量向量。需要注意的是, x , u ¯ , Ω ¯ x ¯ , u ¯ , Ω ¯ bar(x), bar(u), bar(Omega)\overline{\mathbf{x}}, \bar{u}, \bar{\Omega} Ω ¯ Ω ¯ del bar(Omega)\partial \bar{\Omega} 是由一组特征标量 S S S\mathbf{S} 通过无量纲算子 P P P\mathcal{P} 根据问题旨趣决定的,如下所示

{ x , u , Ω , Ω } P ( S ) { x , u ¯ , Ω ¯ , Ω ¯ } { x , u , Ω , Ω } P ( S ) { x ¯ , u ¯ , Ω ¯ , Ω ¯ } {x,u,Omega,del Omega}rarr"P_((S))"{ bar(x), bar(u), bar(Omega),del bar(Omega)}\{\mathbf{x}, u, \Omega, \partial \Omega\} \xrightarrow{\mathcal{P}_{(\mathbf{S})}}\{\overline{\mathbf{x}}, \bar{u}, \bar{\Omega}, \partial \bar{\Omega}\}

我们注意到,由于 PDE 参数的数量和大小较小,且输入和输出在适当范围内缩放,用 PINN 方法求解问题 (5) 通常比原始问题 (1) 更容易。在 ndPINN 模型中,无维度 PDE (5) 采用 PINN 方法求解。设 u ^ n d P I N N u ^ n d P I N N hat(u)_(ndPINN)\hat{u}_{n d P I N N} 为 ndPINN 方法求得的问题 (5) 的最终解。然后,ndPINN 对原始 PDE (1) 的预测值由以下公式推导得出

u n d P I N N = P 1 ( u ^ n d P I N N , S ) u n d P I N N = P 1 u ^ n d P I N N , S u_(ndPINN)=P^(-1)( hat(u)_(ndPINN),S)u_{n d P I N N}=\mathcal{P}^{-1}\left(\hat{u}_{n d P I N N}, \mathbf{S}\right)

其中, P 1 P 1 P^(-1)\mathcal{P}^{-1} P P P\mathcal{P} 的逆算子。


3.分层归一化物理信息神经网络


首先,本节从理论上研究了 PINN 方法在特定边界值问题(BVP)下损失函数条件不佳的重要限制。根据这些理论结果,我们提出了 hnPINN 方法来缓解这一限制,并在实践中显著增强 PINN 的能力。


3.1.常规物理信息神经网络的非条件损失景观--一种理论见解

在本节中,我们将深入分析 PINN 失效的非条件损失景观(Krishnapriyan 等人,2021 年),并证明普通 PINN 的性能不仅取决于 PDE 系数的值,还取决于域大小和网络宽度的变化。在不失一般性的前提下,我们考虑了一个由简单的 k k kk 阶 ODE 控制的 BVP,该 ODE 具有常数系数和混合 BC(涉及 k 1 k 1 k_(1)k_{1} 基本 BC 和 k 2 k 2 k_(2)k_{2} 自然 BC),具体如下
a d k u d x k = f , x ( 0 , L ) p l u ( x l ( E ) ) = g l , l = 1 , 2 , , k 1 q e d u ( x e ( N ) ) d x = h e , e = 1 , 2 , , k 2 a d k u d x k = f , x ( 0 , L ) p l u x l ( E ) = g l , l = 1 , 2 , , k 1 q e d u x e ( N ) d x = h e , e = 1 , 2 , , k 2 {:[a(d^(k)u)/(dx^(k))=f","x in(0","L)],[p_(l)u(x_(l)^((E)))=g_(l)","l=1","2","dots","k_(1)],[q_(e)(du(x_(e)^((N))))/(dx)=h_(e)","e=1","2","dots","k_(2)]:}\begin{aligned} a \frac{d^{k} u}{d x^{k}} & =f, x \in(0, L) \\ p_{l} u\left(x_{l}^{(E)}\right) & =g_{l}, l=1,2, \ldots, k_{1} \\ q_{e} \frac{d u\left(x_{e}^{(N)}\right)}{d x} & =h_{e}, e=1,2, \ldots, k_{2} \end{aligned}

其中 k 1 + k 2 = k , a , p l , q e , f , g , h R k 1 + k 2 = k , a , p l , q e , f , g , h R k_(1)+k_(2)=k,a,p_(l),q_(e),f,g,h inRk_{1}+k_{2}=k, a, p_{l}, q_{e}, f, g, h \in \mathbb{R} 是常数 l , e l , e AA l,e\forall l, e a , p l , q e , f , g , h 0 , L 1 a , p l , q e , f , g , h 0 , L 1 a,p_(l),q_(e),f,g,h!=0,L >= 1a, p_{l}, q_{e}, f, g, h \neq 0, L \geq 1 x l ( E ) , x e ( N ) [ 0 , L ] x l ( E ) , x e ( N ) [ 0 , L ] x_(l)^((E)),x_(e)^((N))in[0,L]x_{l}^{(E)}, x_{e}^{(N)} \in[0, L] 分别是与第 l l ll 次基本 BC 和第 e e ee 次自然 BC 相对应的预定坐标。PINN 损失函数定义如下

L = L D + L B 1 + L B 2 L = L D + L B 1 + L B 2 L=L_(D)+L_(B1)+L_(B2)\mathcal{L}=\mathcal{L}_{D}+\mathcal{L}_{B 1}+\mathcal{L}_{B 2}
 其中
L D = 1 2 i = 1 N D [ a d k u ^ ( x i ( D ) ) d x k f ] 2 , x i ( D ) ( 0 , L ) L D = 1 2 i = 1 N D a d k u ^ x i ( D ) d x k f 2 , x i ( D ) ( 0 , L ) L_(D)=(1)/(2)sum_(i=1)^(N_(D))[a(d^(k)( hat(u))(x_(i)^((D))))/(dx^(k))-f]^(2),x_(i)^((D))in(0,L)\mathcal{L}_{\mathcal{D}}=\frac{1}{2} \sum_{i=1}^{N_{D}}\left[a \frac{d^{k} \hat{u}\left(x_{i}^{(D)}\right)}{d x^{k}}-f\right]^{2}, x_{i}^{(D)} \in(0, L)
L B 1 = l = 1 k 1 L B 1 , l = l = 1 k 1 1 2 [ p l u ^ ( x l ( E ) ) g l ] 2 , l = 1 , 2 , , k 1 L B 1 = l = 1 k 1 L B 1 , l = l = 1 k 1 1 2 p l u ^ x l ( E ) g l 2 , l = 1 , 2 , , k 1 L_(B1)=sum_(l=1)^(k_(1))L_(B1,l)=sum_(l=1)^(k_(1))(1)/(2)[p_(l)( hat(u))(x_(l)^((E)))-g_(l)]^(2),l=1,2,dots,k_(1)\mathcal{L}_{B 1}=\sum_{l=1}^{k_{1}} \mathcal{L}_{B 1, l}=\sum_{l=1}^{k_{1}} \frac{1}{2}\left[p_{l} \hat{u}\left(x_{l}^{(E)}\right)-g_{l}\right]^{2}, l=1,2, \ldots, k_{1}
L B 2 = e = 1 k 2 L B 2 , e = e = 1 k 2 1 2 [ q e d u ^ ( x e ( N ) ) d x h e ] 2 , e = 1 , 2 , , k 2 L B 2 = e = 1 k 2 L B 2 , e = e = 1 k 2 1 2 q e d u ^ x e ( N ) d x h e 2 , e = 1 , 2 , , k 2 L_(B2)=sum_(e=1)^(k_(2))L_(B2,e)=sum_(e=1)^(k_(2))(1)/(2)[q_(e)(d( hat(u))(x_(e)^((N))))/(dx)-h_(e)]^(2),e=1,2,dots,k_(2)\mathcal{L}_{B 2}=\sum_{e=1}^{k_{2}} \mathcal{L}_{B 2, e}=\sum_{e=1}^{k_{2}} \frac{1}{2}\left[q_{e} \frac{d \hat{u}\left(x_{e}^{(N)}\right)}{d x}-h_{e}\right]^{2}, e=1,2, \ldots, k_{2}

其中, x i ( D ) x i ( D ) x_(i)^((D))x_{i}^{(D)} 是内域中的第 i i ii 个定位点。


3.1.1.神经网络配置


为了解决问题 (8),我们使用具有一个输入和一个输出特征的浅层 NN,其形式如下

u ^ ( x , w , v , b ) = 1 N i = 1 N v i σ ( w i x + b i ) + b 0 u ^ ( x , w , v , b ) = 1 N i = 1 N v i σ w i x + b i + b 0 hat(u)(x,w,v,b)=(1)/(sqrtN)sum_(i=1)^(N)v_(i)sigma(w_(i)x+b_(i))+b_(0)\hat{u}(x, \mathbf{w}, \mathbf{v}, \mathbf{b})=\frac{1}{\sqrt{N}} \sum_{i=1}^{N} v_{i} \sigma\left(w_{i} x+b_{i}\right)+b_{0}

其中, x R x R x inRx \in \mathbb{R} 是网络输入, N N NN 是隐藏层的节点数, w , v R N w , v R N w,vinR^(N)\mathbf{w}, \mathbf{v} \in \mathbb{R}^{N} 是第一层和输出层的权重向量, b R N b R N binR^(N)\mathbf{b} \in \mathbb{R}^{N} 是隐藏层的偏置向量, w i , v i , b i w i , v i , b i w_(i),v_(i),b_(i)w_{i}, v_{i}, b_{i} 分别是 w , v w , v w,v\mathbf{w}, \mathbf{v} 的第 i i ii 个分量, b , b 0 R b , b 0 R b,b_(0)inR\mathbf{b}, b_{0} \in \mathbb{R} 是网络输出的偏置值。 σ : R R σ : R R sigma:RrarrR\sigma: \mathbb{R} \rightarrow \mathbb{R} 是一个非线性激活函数,其中双曲正切(tanh)函数在 PINN 方法中应用最为广泛。值得注意的是,网络输出 u ^ u ^ hat(u)\hat{u} 的缩放系数为 1 N 1 N (1)/(sqrtN)\frac{1}{\sqrt{N}} ,以便在 NN 宽度增加到无穷大时实现 NN 的一致渐近收敛(Jacot 等,2018;Wang 等,2022b)。权重和偏置向量由高斯分布 N ( 0 , 1 ) N ( 0 , 1 ) N(0,1)\mathcal{N}(0,1) 初始化。所述 NN 采用全批次梯度下降(GD)训练,损失函数如式 (9)-(10) 所述。


3.1.2.物理信息神经网络的训练动态


让我们考虑一个训练过程,通过使用无限小的学习率来优化公式 (9) 中的损失函数 L L L\mathcal{L} 。相应的梯度演化变得时间连续,梯度流如下所示
d θ ( t ) d t = θ ( t ) L = θ ( t ) L D + l = 1 k 1 θ ( t ) L B 1 , l + e = 1 k 2 θ ( t ) L B 2 , e , t [ 0 , T ] d θ ( t ) d t = θ ( t ) L = θ ( t ) L D + l = 1 k 1 θ ( t ) L B 1 , l + e = 1 k 2 θ ( t ) L B 2 , e , t [ 0 , T ] (d theta(t))/(dt)=grad_(theta(t))L=grad_(theta(t))L_(D)+sum_(l=1)^(k_(1))grad_(theta(t))L_(B1,l)+sum_(e=1)^(k_(2))grad_(theta(t))L_(B2,e),t in[0,T]\frac{d \boldsymbol{\theta}(t)}{d t}=\nabla_{\boldsymbol{\theta}(t)} \mathcal{L}=\nabla_{\boldsymbol{\theta}(t)} \mathcal{L}_{\mathcal{D}}+\sum_{l=1}^{k_{1}} \nabla_{\boldsymbol{\theta}(t)} \mathcal{L}_{B 1, l}+\sum_{e=1}^{k_{2}} \nabla_{\boldsymbol{\theta}(t)} \mathcal{L}_{B 2, e}, t \in[0, T]

其中 T T TT 为最长训练时间。由于训练过程是一个有限的过程,且学习率非常小,因此


首先提出了关于网络参数边界的假设 3.1。如备注 3.1 所述,基于对权重矩阵在训练过程中动态的一些观察,在涉及大宽度 NN 时,这一假设在经验上是合理的。第二个假设 3.2 并不严格,因为 PINN 方法中使用的激活函数几乎都在特定范围内完全受限,如 tanh、sigmoid 和正弦函数。

假设 3.1.在训练过程中,NN 的所有网络参数都以常数 W > 0 W > 0 W > 0W>0 为界:
sup θ ( t ) = W sup θ ( t ) = W s u p||theta(t)||_(oo)=W\sup \|\boldsymbol{\theta}(t)\|_{\infty}=W
t [ 0 , T ] t [ 0 , T ] t in[0,T]t \in[0, T]

其中, θ ( t ) = [ w ( t ) , v ( t ) , b ( t ) ] , w ( t ) , v ( t ) θ ( t ) = [ w ( t ) , v ( t ) , b ( t ) ] , w ( t ) , v ( t ) theta(t)=[w(t),v(t),b(t)],w(t),v(t)\boldsymbol{\theta}(t)=[\mathbf{w}(t), \mathbf{v}(t), \mathbf{b}(t)], \mathbf{w}(t), \mathbf{v}(t) b ( t ) b ( t ) b(t)\mathbf{b}(t) 分别是位于 t t tt 处的 NN 的权重向量和偏置向量。

备注 3.1.直观地说,考虑到足够宽的 NN,权重分量的任何微小变化对网络输出的影响都可以忽略不计。此外,一些关键实验观察到,大型 NN 的权重矩阵在训练过程中仅有轻微变化(Li 和 Liang,2018;Du 等人,2019;Wang 等人,2022b)。因此,假设 3.1 是合理的。

假设 3.2.假设激活函数 σ ( ξ ) : R R σ ( ξ ) : R R sigma(xi):RrarrR\sigma(\xi): \mathbb{R} \rightarrow \mathbb{R} 属于可微分类 C k + 1 , k Z + C k + 1 , k Z + C^(k+1),k inZ^(+)C^{k+1}, k \in \mathbb{Z}^{+} ,且 σ ( j ) ( ξ ) σ ( j ) ( ξ ) sigma^((j))(xi)\sigma^{(j)}(\xi) 表示 σ σ sigma\sigma 相对于 ξ , j Z + , j k + 1 ξ , j Z + , j k + 1 xi,j inZ^(+),j <= k+1\xi, j \in \mathbb{Z}^{+}, j \leq k+1 的三阶导数 j j jj 。对于任意的 ξ ξ xi\xi j j jj σ ( j ) ( ξ ) σ ( j ) ( ξ ) sigma^((j))(xi)\sigma^{(j)}(\xi) 总是以常数 C > 0 C > 0 C > 0C>0 为界:

| σ ( j ) ( ξ ) | C σ ( j ) ( ξ ) C |sigma^((j))(xi)| <= C\left|\sigma^{(j)}(\xi)\right| \leq C

备注 3.2.假设 3.2 完全符合 PINN 中广泛使用的几种激活函数,如 tanh、sigmoid、正弦等。具体来说,这些函数都是无限可微的,其任意阶的导数总是以特定的有限值为界。

本研究的理论结论如下,其中定理 3.2 是主要结果,推论 3.2.1 是定理 3.2 关于无穷宽 NN 的结果。

定理 3.1.在假设 3.1-3.2 L , m , n , w i , v i , b i R L , m , n , w i , v i , b i R L,m,n,w_(i),v_(i),b_(i)inRL, m, n, w_{i}, v_{i}, b_{i} \in \mathbb{R} L , m , n > 0 L , m , n > 0 L,m,n > 0L, m, n>0 条件下,在 i = 1 , , N , j = 1 , , k i = 1 , , N , j = 1 , , k AA i=1,dots,N,AA j=1,dots,k\forall i=1, \ldots, N, \forall j=1, \ldots, k 条件下,下面所有陈述都成立:
| 0 L [ σ ( j ) ( w i x + b i ) ] m x n d x | C m L n + 1 n + 1 | 0 L [ i = 1 N v i w i σ ( j ) ( w i x + b ) ] m d x | W m ( j + 1 ) N m C m L 0 L σ ( j ) w i x + b i m x n d x C m L n + 1 n + 1 0 L i = 1 N v i w i σ ( j ) w i x + b m d x W m ( j + 1 ) N m C m L {:[|int_(0)^(L)[sigma^((j))(w_(i)x+b_(i))]^(m)x^(n)dx| <= (C^(m)L^(n+1))/(n+1)],[|int_(0)^(L)[sum_(i=1)^(N)v_(i)w_(i)sigma^((j))(w_(i)x+b)]^(m)dx| <= W^(m(j+1))N^(m)C^(m)L]:}\begin{aligned} \left|\int_{0}^{L}\left[\sigma^{(j)}\left(w_{i} x+b_{i}\right)\right]^{m} x^{n} d x\right| & \leq \frac{C^{m} L^{n+1}}{n+1} \\ \left|\int_{0}^{L}\left[\sum_{i=1}^{N} v_{i} w_{i} \sigma^{(j)}\left(w_{i} x+b\right)\right]^{m} d x\right| & \leq W^{m(j+1)} N^{m} C^{m} L \end{aligned}
 证明。参见附录 A.1。

定理 3.2.考虑通过第 3.1.1 节所述的浅层 NN,使用公式 (9)-(10) 中的损失函数,用 PINN 方法求解问题 (8)。在假设 3.1-3.2 条件下,训练过程中的损失梯度分量的边界为
sup t [ 0 , T ] L D O ( a 2 L k ) + O ( a 2 L 2 ) + O ( 1 N L k | a f | ) + O ( 1 N L 2 | a f | ) sup t [ 0 , T ] L B 1 , l O ( p l 2 L ) + O ( 1 N L | p l g l | ) , l = 1 , 2 , , k 1 sup t [ 0 , T ] L B 2 , e O ( q e 2 L ) + O ( q e 2 ) + O ( 1 N L | q e h e | ) + O ( 1 N | q e h e | ) , e = 1 , 2 , , k 2 sup t [ 0 , T ] L D O a 2 L k + O a 2 L 2 + O 1 N L k | a f | + O 1 N L 2 | a f | sup t [ 0 , T ] L B 1 , l O p l 2 L + O 1 N L p l g l , l = 1 , 2 , , k 1 sup t [ 0 , T ] L B 2 , e O q e 2 L + O q e 2 + O 1 N L q e h e + O 1 N q e h e , e = 1 , 2 , , k 2 {:[s u p_(t in[0,T])||gradL_(D)||_(oo) <= O(a^(2)Lk)+O(a^(2)L^(2))+O((1)/(sqrtN)Lk|af|)],[+O((1)/(sqrtN)L^(2)|af|)],[s u p_(t in[0,T])||gradL_(B1,l)||_(oo) <= O(p_(l)^(2)L)+O((1)/(sqrtN)L|p_(l)g_(l)|)","l=1","2","dots","k_(1)],[s u p_(t in[0,T])||gradL_(B2,e)||_(oo) <= O(q_(e)^(2)L)+O(q_(e)^(2))+O((1)/(sqrtN)L|q_(e)h_(e)|)],[+O((1)/(sqrtN)|q_(e)h_(e)|)","e=1","2","dots","k_(2)]:}\begin{aligned} \sup _{t \in[0, T]}\left\|\nabla \mathcal{L}_{\mathcal{D}}\right\|_{\infty} \leq & \mathcal{O}\left(a^{2} L k\right)+\mathcal{O}\left(a^{2} L^{2}\right)+\mathcal{O}\left(\frac{1}{\sqrt{N}} L k|a f|\right) \\ & +\mathcal{O}\left(\frac{1}{\sqrt{N}} L^{2}|a f|\right) \\ \sup _{t \in[0, T]}\left\|\nabla \mathcal{L}_{\mathcal{B} 1, l}\right\|_{\infty} \leq & \mathcal{O}\left(p_{l}^{2} L\right)+\mathcal{O}\left(\frac{1}{\sqrt{N}} L\left|p_{l} g_{l}\right|\right), l=1,2, \ldots, k_{1} \\ \sup _{t \in[0, T]}\left\|\nabla \mathcal{L}_{\mathcal{B} 2, e}\right\|_{\infty} \leq & \mathcal{O}\left(q_{e}^{2} L\right)+\mathcal{O}\left(q_{e}^{2}\right)+\mathcal{O}\left(\frac{1}{\sqrt{N}} L\left|q_{e} h_{e}\right|\right) \\ & +\mathcal{O}\left(\frac{1}{\sqrt{N}}\left|q_{e} h_{e}\right|\right), e=1,2, \ldots, k_{2} \end{aligned}
 证明。参见附录 A.2。

备注 3.3.当采用浅层 NN 时,公式 (9)-(10) 中的损失梯度分量会因问题系数、域大小、微分阶数和 NN 宽度的不同而受到不同大小阶数的约束。这就降低了 PINN 的训练性能,因为损失项需要不同的学习率。

推论 3.2.1.在假设 3.1-3.2 条件下,用浅层无穷宽 NN 求解问题 (8) 的损失梯度分量的边界为
lim N sup t [ 0 , T ] L D O ( a 2 L k ) + O ( a 2 L 2 ) lim N sup t [ 0 , T ] L B 1 , l O ( p l 2 L ) , l = 1 , 2 , , k 1 lim N sup t [ 0 , T ] L B 2 , e O ( q e 2 L ) + O ( q e 2 ) , e = 1 , 2 , , k 2 lim N sup t [ 0 , T ] L D O a 2 L k + O a 2 L 2 lim N sup t [ 0 , T ] L B 1 , l O p l 2 L , l = 1 , 2 , , k 1 lim N sup t [ 0 , T ] L B 2 , e O q e 2 L + O q e 2 , e = 1 , 2 , , k 2 {:[lim_(N rarr oo)s u p_(t in[0,T])||gradL_(D)||_(oo) <= O(a^(2)Lk)+O(a^(2)L^(2))],[lim_(N rarr oo)s u p_(t in[0,T])||gradL_(B1,l)||_(oo) <= O(p_(l)^(2)L)","l=1","2","dots","k_(1)],[lim_(N rarr oo)s u p_(t in[0,T])||gradL_(B2,e)||_(oo) <= O(q_(e)^(2)L)+O(q_(e)^(2))","e=1","2","dots","k_(2)]:}\begin{aligned} & \lim _{N \rightarrow \infty} \sup _{t \in[0, T]}\left\|\nabla \mathcal{L}_{\mathcal{D}}\right\|_{\infty} \leq \mathcal{O}\left(a^{2} L k\right)+\mathcal{O}\left(a^{2} L^{2}\right) \\ & \lim _{N \rightarrow \infty} \sup _{t \in[0, T]}\left\|\nabla \mathcal{L}_{\mathcal{B} 1, l}\right\|_{\infty} \leq \mathcal{O}\left(p_{l}^{2} L\right), l=1,2, \ldots, k_{1} \\ & \lim _{N \rightarrow \infty} \sup _{t \in[0, T]}\left\|\nabla \mathcal{L}_{B 2, e}\right\|_{\infty} \leq \mathcal{O}\left(q_{e}^{2} L\right)+\mathcal{O}\left(q_{e}^{2}\right), e=1,2, \ldots, k_{2} \end{aligned}

证明。由于当 N N N rarr ooN \rightarrow \infty 时右边项的极限(其中 O ( 1 N L k | a f | ) , O ( 1 N L 2 | a f | ) , O ( 1 N L | p l g l | ) , O ( 1 N L | q e h e | ) O 1 N L k | a f | , O 1 N L 2 | a f | , O 1 N L p l g l , O 1 N L q e h e O((1)/(sqrtN)Lk|af|),O((1)/(sqrtN)L^(2)|af|),O((1)/(sqrtN)L|p_(l)g_(l)|),O((1)/(sqrtN)L|q_(e)h_(e)|)\mathcal{O}\left(\frac{1}{\sqrt{N}} L k|a f|\right), \mathcal{O}\left(\frac{1}{\sqrt{N}} L^{2}|a f|\right), \mathcal{O}\left(\frac{1}{\sqrt{N}} L\left|p_{l} g_{l}\right|\right), \mathcal{O}\left(\frac{1}{\sqrt{N}} L\left|q_{e} h_{e}\right|\right) O ( 1 N | q e h e | ) O 1 N q e h e O((1)/(sqrtN)|q_(e)h_(e)|)\mathcal{O}\left(\frac{1}{\sqrt{N}}\left|q_{e} h_{e}\right|\right) 的量随之消失), l , e l , e AA l,e\forall l, e 很容易从定理 3.2 中提取出推论 3.2.1。

备注 3.4.当采用无限宽 NN 时,公式 (9)-(10) 中损失分量的无限梯度准则与 f , g l f , g l f,g_(l)f, g_{l} h e , l , e h e , l , e h_(e),AA l,eh_{e}, \forall l, e 无关。换句话说,当 NN 宽度增大时, f , g l f , g l f,g_(l)f, g_{l} h e h e h_(e)h_{e} 对 PINN 训练过程中梯度流的影响会逐渐减小。


3.2.层次归一化物理信息神经网络


本节将介绍拟议的 hnPINN 的特点,以减轻第 3.1 节中介绍的条件不佳的损失景观所造成的困难。hnPINN 的核心思想是一个分层过程,具体如下:(1) 将原始 PDE 问题转化为非维度形式;(2) 通过额外的标度器校准输出大小,以稳定梯度流并提高训练效率。直观但不失一般性的是,下面这个具有常数系数和混合 BC 的一维一般 BVP 可用于描述 hnPINN 的实施步骤,具体如下
i = 1 k a i d i u d x i + a 0 u = f ( x ) , x ( 0 , L ) p l u ( x l ( E ) ) = g l ( x l ( E ) ) , l = 1 , 2 , , k 1 q e d u ( x e ( N ) ) d x = h e ( x e ( N ) ) , e = 1 , 2 , , k 2 i = 1 k a i d i u d x i + a 0 u = f ( x ) , x ( 0 , L ) p l u x l ( E ) = g l x l ( E ) , l = 1 , 2 , , k 1 q e d u x e ( N ) d x = h e x e ( N ) , e = 1 , 2 , , k 2 {:[sum_(i=1)^(k)a_(i)(d^(i)u)/(dx^(i))+a_(0)u=f(x)","x in(0","L)],[p_(l)u(x_(l)^((E)))=g_(l)(x_(l)^((E)))","l=1","2","dots","k_(1)],[q_(e)(du(x_(e)^((N))))/(dx)=h_(e)(x_(e)^((N)))","e=1","2","dots","k_(2)]:}\begin{aligned} \sum_{i=1}^{k} a_{i} \frac{d^{i} u}{d x^{i}}+a_{0} u & =f(x), x \in(0, L) \\ p_{l} u\left(x_{l}^{(E)}\right) & =g_{l}\left(x_{l}^{(E)}\right), l=1,2, \ldots, k_{1} \\ q_{e} \frac{d u\left(x_{e}^{(N)}\right)}{d x} & =h_{e}\left(x_{e}^{(N)}\right), e=1,2, \ldots, k_{2} \end{aligned}

其中 a i , a 0 , p l , q e R a i , a 0 , p l , q e R a_(i),a_(0),p_(l),q_(e)inRa_{i}, a_{0}, p_{l}, q_{e} \in \mathbb{R} 为常数, f ( x ) , g l ( x ) f ( x ) , g l ( x ) f(x),g_(l)(x)f(x), g_{l}(x) h e ( x ) h e ( x ) h_(e)(x)h_{e}(x) 为强制函数, i = 1 , 2 , , k i = 1 , 2 , , k i=1,2,dots,ki=1,2, \ldots, k 为强制函数。可以看出,上述 BVP 在固体力学中非常流行。针对该问题的 hnPINN 方法的技术流程如下。

  • 步骤 1:确定输入和输出变量 不难发现,对于问题 (18),hnPINN 模型需要一个输入变量 x x xx 和一个输出变量 u u uu

  • 步骤 2:确定归一化输入和输出变量 对于问题 (18),通过分层标度器 X 0 X 0 X_(0)X_{0} U 0 U 0 U_(0)U_{0} α u α u alpha_(u)\alpha_{u} 建立相对于相应变量的归一化变量 x ¯ x ¯ bar(x)\bar{x} u ¯ u ¯ bar(u)\bar{u} 如下

    x ¯ = x X 0 , x ¯ l ( E ) = x l ( E ) X 0 , x ¯ e ( N ) = x e ( N ) X 0 x ¯ = x X 0 , x ¯ l ( E ) = x l ( E ) X 0 , x ¯ e ( N ) = x e ( N ) X 0 bar(x)=(x)/(X_(0)), bar(x)_(l)^((E))=(x_(l)^((E)))/(X_(0)), bar(x)_(e)^((N))=(x_(e)^((N)))/(X_(0))\bar{x}=\frac{x}{X_{0}}, \bar{x}_{l}^{(E)}=\frac{x_{l}^{(E)}}{X_{0}}, \bar{x}_{e}^{(N)}=\frac{x_{e}^{(N)}}{X_{0}}
    u ¯ = u α u U 0 u ¯ = u α u U 0 bar(u)=(u)/(alpha_(u)U_(0))\bar{u}=\frac{u}{\alpha_{u} U_{0}}

    其中, X 0 X 0 X_(0)X_{0} U 0 U 0 U_(0)U_{0} 分别是输入和输出的一级缩放器, α u α u alpha_(u)\alpha_{u} 是输出的二级缩放器。

  • 步骤 3:通过归一化变量推导原始 PDE 系统 在这一阶段,将步骤 2 中得到的归一化变量插入原始 PDE 问题中,得到相应的 PDE 系统。具体来说, u u uu 的三阶导数 i i ii u ¯ u ¯ bar(u)\bar{u} 之间的关系通过链式规则提取如下

    d i u d x i = U 0 X 0 i α u d i u ¯ d x ¯ i d i u d x i = U 0 X 0 i α u d i u ¯ d x ¯ i (d^(i)u)/(dx^(i))=(U_(0))/(X_(0)^(i))alpha_(u)(d^(i)( bar(u)))/(d bar(x)^(i))\frac{d^{i} u}{d x^{i}}=\frac{U_{0}}{X_{0}^{i}} \alpha_{u} \frac{d^{i} \bar{u}}{d \bar{x}^{i}}

    根据公式 (20),PDE 问题 (18) 可改写为
i = 1 k a i U 0 X 0 i α u d i u ¯ d x ¯ i + a 0 U 0 α u u ¯ = f ( X 0 x ¯ ) , x ¯ [ 0 , L X 0 ] p l U 0 α u u ¯ ( x ¯ l ( E ) ) = g l ( X 0 x ¯ l ( E ) ) , l = 1 , 2 , , k 1 q e U 0 X 0 α u d u ¯ ( x ¯ e ( N ) ) d x ¯ = h e ( X 0 x ¯ e ( N ) ) , e = 1 , 2 , , k 2 i = 1 k a i U 0 X 0 i α u d i u ¯ d x ¯ i + a 0 U 0 α u u ¯ = f X 0 x ¯ , x ¯ 0 , L X 0 p l U 0 α u u ¯ x ¯ l ( E ) = g l X 0 x ¯ l ( E ) , l = 1 , 2 , , k 1 q e U 0 X 0 α u d u ¯ x ¯ e ( N ) d x ¯ = h e X 0 x ¯ e ( N ) , e = 1 , 2 , , k 2 {:[sum_(i=1)^(k)a_(i)(U_(0))/(X_(0)^(i))alpha_(u)(d^(i)( bar(u)))/(d bar(x)^(i))+a_(0)U_(0)alpha_(u) bar(u)=f(X_(0)( bar(x)))"," bar(x)in[0,(L)/(X_(0))]],[p_(l)U_(0)alpha_(u) bar(u)( bar(x)_(l)^((E)))=g_(l)(X_(0) bar(x)_(l)^((E)))","l=1","2","dots","k_(1)],[q_(e)(U_(0))/(X_(0))alpha_(u)(d( bar(u))( bar(x)_(e)^((N))))/(d( bar(x)))=h_(e)(X_(0) bar(x)_(e)^((N)))","e=1","2","dots","k_(2)]:}\begin{aligned} \sum_{i=1}^{k} a_{i} \frac{U_{0}}{X_{0}^{i}} \alpha_{u} \frac{d^{i} \bar{u}}{d \bar{x}^{i}}+a_{0} U_{0} \alpha_{u} \bar{u} & =f\left(X_{0} \bar{x}\right), \bar{x} \in\left[0, \frac{L}{X_{0}}\right] \\ p_{l} U_{0} \alpha_{u} \bar{u}\left(\bar{x}_{l}^{(E)}\right) & =g_{l}\left(X_{0} \bar{x}_{l}^{(E)}\right), l=1,2, \ldots, k_{1} \\ q_{e} \frac{U_{0}}{X_{0}} \alpha_{u} \frac{d \bar{u}\left(\bar{x}_{e}^{(N)}\right)}{d \bar{x}} & =h_{e}\left(X_{0} \bar{x}_{e}^{(N)}\right), e=1,2, \ldots, k_{2} \end{aligned}

  • 步骤 4:通过主标度和次标度对 PDE 系统进行分层归一化 选择标度 X 0 , U 0 X 0 , U 0 X_(0),U_(0)X_{0}, U_{0} α u α u alpha_(u)\alpha_{u} 以获得 PDE (21) 的归一化形式,是通过一个分层的两阶段过程决定的。首先,选择主标度 X 0 X 0 X_(0)X_{0} U 0 U 0 U_(0)U_{0} 将问题 (21) 转化为两个拟议的非尺寸化版本之一。随后,根据第一阶段确定的无量纲形式,决定次级标度 α u α u alpha_(u)\alpha_{u}

  • 在第一阶段,为了获得 (21) 的无量纲化,只需在 X 0 = L X 0 = L X_(0)=LX_{0}=L 处设置主标度,将问题的域大小缩放为 1,并在 U 0 = L k a k U 0 = L k a k U_(0)=(L^(k))/(a_(k))U_{0}=\frac{L^{k}}{a_{k}} 处消除 k k kk 三阶导数前面的系数。因此,PDE 系统 (21) 可以转化为以下两种无量纲形式之一
  •  类型 1:
d k u ¯ d x ¯ k + i = 1 k 1 a i L k i a k d i u ¯ d x ¯ i + a 0 L k a k u ¯ = f ( L x ¯ ) α u , x ¯ ( 0 , 1 ) u ¯ ( x ¯ l ( E ) ) = g l ( L x ¯ l ( E ) ) a k α u p l L k , l = 1 , 2 , , k 1 d u ¯ ( x ¯ e ( N ) ) d x ¯ = h e ( L x ¯ e ( N ) ) a k α u q e L k 1 , e = 1 , 2 , , k 2 d k u ¯ d x ¯ k + i = 1 k 1 a i L k i a k d i u ¯ d x ¯ i + a 0 L k a k u ¯ = f ( L x ¯ ) α u , x ¯ ( 0 , 1 ) u ¯ x ¯ l ( E ) = g l L x ¯ l ( E ) a k α u p l L k , l = 1 , 2 , , k 1 d u ¯ x ¯ e ( N ) d x ¯ = h e L x ¯ e ( N ) a k α u q e L k 1 , e = 1 , 2 , , k 2 {:[(d^(k)( bar(u)))/(d bar(x)^(k))+sum_(i=1)^(k-1)a_(i)(L^(k-i))/(a_(k))(d^(i)( bar(u)))/(d bar(x)^(i))+a_(0)(L^(k))/(a_(k)) bar(u)=(f(L( bar(x))))/(alpha_(u))"," bar(x)in(0","1)],[ bar(u)( bar(x)_(l)^((E)))=(g_(l)(L bar(x)_(l)^((E)))a_(k))/(alpha_(u)p_(l)L^(k))","l=1","2","dots","k_(1)],[(d( bar(u))( bar(x)_(e)^((N))))/(d( bar(x)))=(h_(e)(L bar(x)_(e)^((N)))a_(k))/(alpha_(u)q_(e)L^(k-1))","e=1","2","dots","k_(2)]:}\begin{aligned} \frac{d^{k} \bar{u}}{d \bar{x}^{k}}+\sum_{i=1}^{k-1} a_{i} \frac{L^{k-i}}{a_{k}} \frac{d^{i} \bar{u}}{d \bar{x}^{i}}+a_{0} \frac{L^{k}}{a_{k}} \bar{u} & =\frac{f(L \bar{x})}{\alpha_{u}}, \bar{x} \in(0,1) \\ \bar{u}\left(\bar{x}_{l}^{(E)}\right) & =\frac{g_{l}\left(L \bar{x}_{l}^{(E)}\right) a_{k}}{\alpha_{u} p_{l} L^{k}}, l=1,2, \ldots, k_{1} \\ \frac{d \bar{u}\left(\bar{x}_{e}^{(N)}\right)}{d \bar{x}} & =\frac{h_{e}\left(L \bar{x}_{e}^{(N)}\right) a_{k}}{\alpha_{u} q_{e} L^{k-1}}, e=1,2, \ldots, k_{2} \end{aligned}
  •  类型 2:
α u d k u ¯ d x ¯ k + α u i = 1 k 1 a i L k i a k d i u ¯ d x ¯ i + α u a 0 L k a k u ¯ = f ( L x ¯ ) , x ¯ ( 0 , 1 ) α u u ¯ ( x ¯ l ( E ) ) = g l ( L x ¯ l ( E ) ) a k p l L k , l = 1 , 2 , , k 1 α u d k u ¯ d x ¯ k + α u i = 1 k 1 a i L k i a k d i u ¯ d x ¯ i + α u a 0 L k a k u ¯ = f ( L x ¯ ) , x ¯ ( 0 , 1 ) α u u ¯ x ¯ l ( E ) = g l L x ¯ l ( E ) a k p l L k , l = 1 , 2 , , k 1 {:[alpha_(u)(d^(k)( bar(u)))/(d bar(x)^(k))+alpha_(u)sum_(i=1)^(k-1)a_(i)(L^(k-i))/(a_(k))(d^(i)( bar(u)))/(d bar(x)^(i))+alpha_(u)a_(0)(L^(k))/(a_(k)) bar(u)=f(L bar(x))"," bar(x)in(0","1)],[alpha_(u) bar(u)( bar(x)_(l)^((E)))=(g_(l)(L bar(x)_(l)^((E)))a_(k))/(p_(l)L^(k))","l=1","2","dots","k_(1)]:}\begin{aligned} \alpha_{u} \frac{d^{k} \bar{u}}{d \bar{x}^{k}}+\alpha_{u} \sum_{i=1}^{k-1} a_{i} \frac{L^{k-i}}{a_{k}} \frac{d^{i} \bar{u}}{d \bar{x}^{i}}+\alpha_{u} a_{0} \frac{L^{k}}{a_{k}} \bar{u} & =f(L \bar{x}), \bar{x} \in(0,1) \\ \alpha_{u} \bar{u}\left(\bar{x}_{l}^{(E)}\right) & =\frac{g_{l}\left(L \bar{x}_{l}^{(E)}\right) a_{k}}{p_{l} L^{k}}, l=1,2, \ldots, k_{1} \end{aligned}
α u d u ¯ ( x ¯ e ( N ) ) d x ¯ = h e ( L x ¯ e ( N ) ) a k q e L k 1 , e = 1 , 2 , , k 2 α u d u ¯ x ¯ e ( N ) d x ¯ = h e L x ¯ e ( N ) a k q e L k 1 , e = 1 , 2 , , k 2 alpha_(u)(d( bar(u))( bar(x)_(e)^((N))))/(d( bar(x)))=(h_(e)(L bar(x)_(e)^((N)))a_(k))/(q_(e)L^(k-1)),e=1,2,dots,k_(2)\alpha_{u} \frac{d \bar{u}\left(\bar{x}_{e}^{(N)}\right)}{d \bar{x}}=\frac{h_{e}\left(L \bar{x}_{e}^{(N)}\right) a_{k}}{q_{e} L^{k-1}}, e=1,2, \ldots, k_{2}

两种 hnPINN 的使用取决于 PDE 问题的本质和设置。第 3.3.1 节就何时以及为何应使用类型 1 或类型 2 hnPINN 来适当实现问题的层次归一化形式进行了一些分析和讨论。

  • 在第二阶段,根据分层规范化形式的类型确定次级输出标尺 α u α u alpha_(u)\alpha_{u} 的选择程序。第 3.3.1 节和第 3.3.2 节介绍了明确 α u α u alpha_(u)\alpha_{u} 位置的理论角度。


    确定最佳 α u α u alpha_(u)\alpha_{u} 的方法将在第 3.3.2 节中介绍。第 3.4.3 节中的实验分析说明了 α u α u alpha_(u)\alpha_{u} 对梯度稳定的影响以及 hnPINN 在特定问题上的求解质量。此外,本部分还展示了第 3.3.2 节中提出的 α u α u alpha_(u)\alpha_{u} 校准框架的有效性。值得注意的是,ndPINN 是 hnPINN 的一种特例,其中 ndPINN 等同于带有 α u = 1 α u = 1 alpha_(u)=1\alpha_{u}=1 的 hnPINN(换句话说,类似于 hnPINN,没有步骤 4 中的第二阶段层次归一化)。在实际应用中,二次输出缩放器 α u α u alpha_(u)\alpha_{u} 的参与是所提出的 hnPINN 与普通 ndPINN 的根本区别。

  • 步骤 5:训练 hnPINN 在这一步骤中,应用第 2 节所述的 PINN 方法,通过类型 1 (22) 或类型 2 (23) 近似分层归一化 PDE 系统的解 u ¯ ( x ¯ ) u ^ ( x ¯ , θ n ) u ¯ ( x ¯ ) u ^ x ¯ , θ n bar(u)( bar(x))~~ hat(u)(( bar(x)),theta_(n))\bar{u}(\bar{x}) \approx \hat{u}\left(\bar{x}, \theta_{n}\right) 。hnPINN 模型的损失函数定义如下
L n = L n D + L n B 1 + L n B 2 L n = L n D + L n B 1 + L n B 2 L_(n)=L_(nD)+L_(nB1)+L_(nB2)\mathcal{L}_{n}=\mathcal{L}_{n \mathcal{D}}+\mathcal{L}_{n B 1}+\mathcal{L}_{n B 2}

因此,1 型 hnPINN 的均方残差 L n D , L n B 1 L n D , L n B 1 L_(nD),L_(nB1)\mathcal{L}_{n \mathcal{D}}, \mathcal{L}_{n \mathcal{B} 1} L n B 2 L n B 2 L_(nB2)\mathcal{L}_{n \mathcal{B} 2} 分别为
L n D = 1 N D i = 1 N D [ d k u ^ ( x ¯ i ( D ) , θ n ) d x ¯ k + i = 1 k 1 a i L k i a k d i u ^ ( x ¯ i ( D ) , θ n ) d x ¯ i + a 0 L k a k u ^ ( x ¯ i ( D ) , θ n ) f ( L x ¯ i ( D ) ) α u ] 2 , x ¯ i ( D ) ( 0 , 1 ) L n B 1 = [ u ^ ( x ¯ l ( E ) , θ n ) g l ( L x ¯ l ( E ) ) a k α u p l L k ] 2 , l = 1 , 2 , , k 1 L n B 2 = [ d u ^ ( x ¯ l ( N ) , θ n ) d x ¯ h ( L x ¯ l ( N ) ) a k α u q L k 1 ] 2 , e = 1 , 2 , , k 2 L n D = 1 N D i = 1 N D d k u ^ x ¯ i ( D ) , θ n d x ¯ k + i = 1 k 1 a i L k i a k d i u ^ x ¯ i ( D ) , θ n d x ¯ i + a 0 L k a k u ^ x ¯ i ( D ) , θ n f L x ¯ i ( D ) α u 2 , x ¯ i ( D ) ( 0 , 1 ) L n B 1 = u ^ x ¯ l ( E ) , θ n g l L x ¯ l ( E ) a k α u p l L k 2 , l = 1 , 2 , , k 1 L n B 2 = d u ^ x ¯ l ( N ) , θ n d x ¯ h L x ¯ l ( N ) a k α u q L k 1 2 , e = 1 , 2 , , k 2 {:[L_(nD)=(1)/(N_(D))sum_(i=1)^(N_(D))[(d^(k)( hat(u))( bar(x)_(i)^((D)),theta_(n)))/(d bar(x)^(k))+sum_(i=1)^(k-1)a_(i)(L^(k-i))/(a_(k))(d^(i)( hat(u))( bar(x)_(i)^((D)),theta_(n)))/(d bar(x)^(i)):}],[+a_(0)(L^(k))/(a_(k))( hat(u))( bar(x)_(i)^((D)),theta_(n))-(f(L bar(x)_(i)^((D))))/(alpha_(u))]^(2)","],[ bar(x)_(i)^((D))in(0","1)],[L_(nB1)={:[( hat(u))( bar(x)_(l)^((E)),theta_(n))-(g_(l)(L bar(x)_(l)^((E)))a_(k))/(alpha_(u)p_(l)L^(k))]^(2)","l=1","2","dots","k_(1):}],[L_(nB2)={:[(d( hat(u))( bar(x)_(l)^((N)),theta_(n)))/(d( bar(x)))-(h(L bar(x)_(l)^((N)))a_(k))/(alpha_(u)qL^(k-1))]^(2)","e=1","2","dots","k_(2):}]:}\begin{aligned} \mathcal{L}_{n \mathcal{D}}= & \frac{1}{N_{D}} \sum_{i=1}^{N_{D}}\left[\frac{d^{k} \hat{u}\left(\bar{x}_{i}^{(D)}, \boldsymbol{\theta}_{n}\right)}{d \bar{x}^{k}}+\sum_{i=1}^{k-1} a_{i} \frac{L^{k-i}}{a_{k}} \frac{d^{i} \hat{u}\left(\bar{x}_{i}^{(D)}, \boldsymbol{\theta}_{n}\right)}{d \bar{x}^{i}}\right. \\ & \left.+a_{0} \frac{L^{k}}{a_{k}} \hat{u}\left(\bar{x}_{i}^{(D)}, \boldsymbol{\theta}_{n}\right)-\frac{f\left(L \bar{x}_{i}^{(D)}\right)}{\alpha_{u}}\right]^{2}, \\ & \bar{x}_{i}^{(D)} \in(0,1) \\ \mathcal{L}_{n \mathcal{B} 1}= & {\left[\hat{u}\left(\bar{x}_{l}^{(E)}, \boldsymbol{\theta}_{n}\right)-\frac{g_{l}\left(L \bar{x}_{l}^{(E)}\right) a_{k}}{\alpha_{u} p_{l} L^{k}}\right]^{2}, l=1,2, \ldots, k_{1} } \\ \mathcal{L}_{n \mathcal{B} 2}= & {\left[\frac{d \hat{u}\left(\bar{x}_{l}^{(N)}, \boldsymbol{\theta}_{n}\right)}{d \bar{x}}-\frac{h\left(L \bar{x}_{l}^{(N)}\right) a_{k}}{\alpha_{u} q L^{k-1}}\right]^{2}, e=1,2, \ldots, k_{2} } \end{aligned}

和 2 型 hnPINN 的数据由
L n D = 1 N D i = 1 N D [ α u d k u ^ ( x ¯ i ( D ) , θ n ) d x ¯ k + α u i = 1 k 1 a i L k i a k d i u ^ ( x ¯ i ( D ) , θ n ) d x ¯ i + α u a 0 L k a k u ^ ( x ¯ i ( D ) , θ n ) f ( L x ¯ i ( D ) ) ] 2 , x ¯ i ( D ) ( 0 , 1 ) L n B 1 = [ α u u ^ ( x ¯ l ( E ) , θ n ) g l ( L x ¯ l ( E ) ) a k p l L k ] 2 , l = 1 , 2 , , k 1 L n B 2 = [ α u d u ^ ( x ¯ l ( N ) , θ n ) d x ¯ h ( L x ¯ l ( N ) ) a k q L k 1 ] 2 , e = 1 , 2 , , k 2 L n D = 1 N D i = 1 N D α u d k u ^ x ¯ i ( D ) , θ n d x ¯ k + α u i = 1 k 1 a i L k i a k d i u ^ x ¯ i ( D ) , θ n d x ¯ i + α u a 0 L k a k u ^ x ¯ i ( D ) , θ n f L x ¯ i ( D ) 2 , x ¯ i ( D ) ( 0 , 1 ) L n B 1 = α u u ^ x ¯ l ( E ) , θ n g l L x ¯ l ( E ) a k p l L k 2 , l = 1 , 2 , , k 1 L n B 2 = α u d u ^ x ¯ l ( N ) , θ n d x ¯ h L x ¯ l ( N ) a k q L k 1 2 , e = 1 , 2 , , k 2 {:[L_(nD)=(1)/(N_(D))sum_(i=1)^(N_(D))[alpha_(u)(d^(k)( hat(u))( bar(x)_(i)^((D)),theta_(n)))/(d bar(x)^(k))+alpha_(u)sum_(i=1)^(k-1)a_(i)(L^(k-i))/(a_(k))(d^(i)( hat(u))( bar(x)_(i)^((D)),theta_(n)))/(d bar(x)^(i)):}],[+alpha_(u)a_(0)(L^(k))/(a_(k))( hat(u))( bar(x)_(i)^((D)),theta_(n))-f(L bar(x)_(i)^((D)))]^(2)","],[ bar(x)_(i)^((D))in(0","1)],[L_(nB1)={:[alpha_(u)( hat(u))( bar(x)_(l)^((E)),theta_(n))-(g_(l)(L bar(x)_(l)^((E)))a_(k))/(p_(l)L^(k))]^(2)","l=1","2","dots","k_(1):}],[L_(nB2)={:[alpha_(u)(d( hat(u))( bar(x)_(l)^((N)),theta_(n)))/(d( bar(x)))-(h(L bar(x)_(l)^((N)))a_(k))/(qL^(k-1))]^(2)","e=1","2","dots","k_(2):}]:}\begin{aligned} \mathcal{L}_{n \mathcal{D}}= & \frac{1}{N_{D}} \sum_{i=1}^{N_{D}}\left[\alpha_{u} \frac{d^{k} \hat{u}\left(\bar{x}_{i}^{(D)}, \boldsymbol{\theta}_{n}\right)}{d \bar{x}^{k}}+\alpha_{u} \sum_{i=1}^{k-1} a_{i} \frac{L^{k-i}}{a_{k}} \frac{d^{i} \hat{u}\left(\bar{x}_{i}^{(D)}, \boldsymbol{\theta}_{n}\right)}{d \bar{x}^{i}}\right. \\ & \left.+\alpha_{u} a_{0} \frac{L^{k}}{a_{k}} \hat{u}\left(\bar{x}_{i}^{(D)}, \boldsymbol{\theta}_{n}\right)-f\left(L \bar{x}_{i}^{(D)}\right)\right]^{2}, \\ & \bar{x}_{i}^{(D)} \in(0,1) \\ \mathcal{L}_{n \mathcal{B} 1}= & {\left[\alpha_{u} \hat{u}\left(\bar{x}_{l}^{(E)}, \boldsymbol{\theta}_{n}\right)-\frac{g_{l}\left(L \bar{x}_{l}^{(E)}\right) a_{k}}{p_{l} L^{k}}\right]^{2}, l=1,2, \ldots, k_{1} } \\ \mathcal{L}_{n \mathcal{B} 2}= & {\left[\alpha_{u} \frac{d \hat{u}\left(\bar{x}_{l}^{(N)}, \boldsymbol{\theta}_{n}\right)}{d \bar{x}}-\frac{h\left(L \bar{x}_{l}^{(N)}\right) a_{k}}{q L^{k-1}}\right]^{2}, e=1,2, \ldots, k_{2} } \end{aligned}

其中, N D N D N_(D)N_{D} 是在内域中随机采样的定位点数量, θ n θ n theta_(n)\theta_{n} 是 hnPINN 模型的网络参数。由 hnPINN 得出的潜在解的相应预测值由以下公式确定
u h n P I N N = α u U 0 u ^ ( x ¯ , θ n ) u h n P I N N = α u U 0 u ^ x ¯ , θ n u_(hnPINN)=alpha_(u)U_(0) hat(u)(( bar(x)),theta_(n))u_{h n P I N N}=\alpha_{u} U_{0} \hat{u}\left(\bar{x}, \theta_{n}\right)

算法 1 概述了 hnPINN 方法的技术流程。从上述 hnPINN 的描述中可以看出,所提出的 hnPINN 可以看作是在训练 PINN 模型之前的一个预处理过程,以减少条件不良损失景观所带来的困难。因此,值得注意的是,在 DNN 配置和训练设置相同的情况下,hnPINN 训练过程中每次迭代的计算成本肯定与原始 PINN 和 ndPINN 的计算成本相等。

算法 1 hnPINN 程序


要求:强形式的 PDE 问题(如 BVP (8)


1: 确定 PDE 系统的输入和输出变量,类似于第 3.2 节中的步骤 1


通过一级和二级输出标尺确定归一化输入和输出变量,类似于第 3.2 节中的步骤 2


按照第 3.2 节中的步骤 3 相似的方法,用归一化变量部署原始问题


根据第 3.2 节步骤 4 和第 3.3.1 节备注 3.5,确定使用类型 1 或类型 2 hnPINN


与第 3.2 节中的步骤 4 相似,确定主标度器的最佳值


通过第 3.3.2 节中的算法 3 确定二级输出标度的最佳值


使用适当的超参数配置神经网络和训练设置


8:训练 hnPINN 模型,类似于第 3.2 节中的步骤 5


9: 确定 hnPINN 解,类似于公式 (27)

 返回 hnPINN 解决方案


3.3.次级输出缩放器选择


3.3.1.二级输出标度在分层归一化中的作用


本节将从理论上分析二次输出标度对两种 hnPINN 梯度边界的影响。通过使用具有 N N NN 隐藏节点的浅层 NN 来考虑 hnPINN 问题 (8),可以得到以下两种分层归一化形式
  •  类型 1:
d k u ¯ d x ¯ k = f α u , x ¯ ( 0 , 1 ) u ¯ ( x ¯ l ( E ) ) = g l a α u p l L k , l = 1 , 2 , , k 1 d u ¯ ( x ¯ e ( N ) ) d x ¯ = h e a α u q e L k 1 , e = 1 , 2 , , k 2 d k u ¯ d x ¯ k = f α u , x ¯ ( 0 , 1 ) u ¯ x ¯ l ( E ) = g l a α u p l L k , l = 1 , 2 , , k 1 d u ¯ x ¯ e ( N ) d x ¯ = h e a α u q e L k 1 , e = 1 , 2 , , k 2 {:[(d^(k)( bar(u)))/(d bar(x)^(k))=(f)/(alpha_(u))"," bar(x)in(0","1)],[ bar(u)( bar(x)_(l)^((E)))=(g_(l)a)/(alpha_(u)p_(l)L^(k))","l=1","2","dots","k_(1)],[(d( bar(u))( bar(x)_(e)^((N))))/(d( bar(x)))=(h_(e)a)/(alpha_(u)q_(e)L^(k-1))","e=1","2","dots","k_(2)]:}\begin{aligned} \frac{d^{k} \bar{u}}{d \bar{x}^{k}} & =\frac{f}{\alpha_{u}}, \bar{x} \in(0,1) \\ \bar{u}\left(\bar{x}_{l}^{(E)}\right) & =\frac{g_{l} a}{\alpha_{u} p_{l} L^{k}}, l=1,2, \ldots, k_{1} \\ \frac{d \bar{u}\left(\bar{x}_{e}^{(N)}\right)}{d \bar{x}} & =\frac{h_{e} a}{\alpha_{u} q_{e} L^{k-1}}, e=1,2, \ldots, k_{2} \end{aligned}
  •  类型 2:
α u d k u ¯ d x ¯ k = f , x ¯ ( 0 , 1 ) α u u ¯ ( x ¯ l ( E ) ) = g l a p l L k , l = 1 , 2 , , k 1 α u d u ¯ ( x ¯ e ( N ) ) d x ¯ = h e a q e L k 1 , e = 1 , 2 , , k 2 α u d k u ¯ d x ¯ k = f , x ¯ ( 0 , 1 ) α u u ¯ x ¯ l ( E ) = g l a p l L k , l = 1 , 2 , , k 1 α u d u ¯ x ¯ e ( N ) d x ¯ = h e a q e L k 1 , e = 1 , 2 , , k 2 {:[alpha_(u)(d^(k)( bar(u)))/(d bar(x)^(k))=f"," bar(x)in(0","1)],[alpha_(u) bar(u)( bar(x)_(l)^((E)))=(g_(l)a)/(p_(l)L^(k))","l=1","2","dots","k_(1)],[alpha_(u)(d( bar(u))( bar(x)_(e)^((N))))/(d( bar(x)))=(h_(e)a)/(q_(e)L^(k-1))","e=1","2","dots","k_(2)]:}\begin{aligned} \alpha_{u} \frac{d^{k} \bar{u}}{d \bar{x}^{k}} & =f, \bar{x} \in(0,1) \\ \alpha_{u} \bar{u}\left(\bar{x}_{l}^{(E)}\right) & =\frac{g_{l} a}{p_{l} L^{k}}, l=1,2, \ldots, k_{1} \\ \alpha_{u} \frac{d \bar{u}\left(\bar{x}_{e}^{(N)}\right)}{d \bar{x}} & =\frac{h_{e} a}{q_{e} L^{k-1}}, e=1,2, \ldots, k_{2} \end{aligned}

中的主标度分别为 X 0 = L X 0 = L X_(0)=LX_{0}=L U 0 = L k a U 0 = L k a U_(0)=(L^(k))/(a)U_{0}=\frac{L^{k}}{a} 。根据定理 3.2 和 hnPINN 损失函数类似于式 (25)(26),我们可以推导出问题 (8) 的 1 型和 2 型 hnPINN 损失梯度的上界如下
  •  类型 1:
sup t [ 0 , T ] L n D O ( k ) + O ( | 1 α u k f | ) + O ( 1 ) sup t [ 0 , T ] L n B 1 , l O ( | 1 α u g l a p l L k | ) + O ( 1 ) , l = 1 , 2 , , k 1 sup t [ 0 , T ] L n B 2 , e O ( | 1 α u h e a q e L k 1 | ) + O ( 1 ) , e = 1 , 2 , , k 2 sup t [ 0 , T ] L n D O ( k ) + O 1 α u k f + O ( 1 ) sup t [ 0 , T ] L n B 1 , l O 1 α u g l a p l L k + O ( 1 ) , l = 1 , 2 , , k 1 sup t [ 0 , T ] L n B 2 , e O 1 α u h e a q e L k 1 + O ( 1 ) , e = 1 , 2 , , k 2 {:[s u p_(t in[0,T])||gradL_(nD)||_(oo) <= O(k)+O(|(1)/(alpha_(u))kf|)+O(1)],[s u p_(t in[0,T])||gradL_(nB1,l)||_(oo) <= O(|(1)/(alpha_(u))(g_(l)a)/(p_(l)L^(k))|)+O(1)","l=1","2","dots","k_(1)],[s u p_(t in[0,T])||gradL_(nB2,e)||_(oo) <= O(|(1)/(alpha_(u))(h_(e)a)/(q_(e)L^(k-1))|)+O(1)","e=1","2","dots","k_(2)]:}\begin{aligned} & \sup _{t \in[0, T]}\left\|\nabla \mathcal{L}_{n \mathcal{D}}\right\|_{\infty} \leq \mathcal{O}(k)+\mathcal{O}\left(\left|\frac{1}{\alpha_{u}} k f\right|\right)+\mathcal{O}(1) \\ & \sup _{t \in[0, T]}\left\|\nabla \mathcal{L}_{n \mathcal{B} 1, l}\right\|_{\infty} \leq \mathcal{O}\left(\left|\frac{1}{\alpha_{u}} \frac{g_{l} a}{p_{l} L^{k}}\right|\right)+\mathcal{O}(1), l=1,2, \ldots, k_{1} \\ & \sup _{t \in[0, T]}\left\|\nabla \mathcal{L}_{n B 2, e}\right\|_{\infty} \leq \mathcal{O}\left(\left|\frac{1}{\alpha_{u}} \frac{h_{e} a}{q_{e} L^{k-1}}\right|\right)+\mathcal{O}(1), e=1,2, \ldots, k_{2} \end{aligned}
  •  类型 2:
sup t [ 0 , T ] L n D O ( α u 2 k ) + O ( | α u k f | ) + O ( 1 ) sup t [ 0 , T ] L n B 1 , l O ( α u 2 ) + O ( | α u g l a p l L k | ) + O ( 1 ) , l = 1 , 2 , , k 1 sup t [ 0 , T ] L n B 2 , e O ( α u 2 ) + O ( | α u h e a q e L k 1 | ) + O ( 1 ) , e = 1 , 2 , , k 2 sup t [ 0 , T ] L n D O α u 2 k + O α u k f + O ( 1 ) sup t [ 0 , T ] L n B 1 , l O α u 2 + O α u g l a p l L k + O ( 1 ) , l = 1 , 2 , , k 1 sup t [ 0 , T ] L n B 2 , e O α u 2 + O α u h e a q e L k 1 + O ( 1 ) , e = 1 , 2 , , k 2 {:[s u p_(t in[0,T])||gradL_(nD)||_(oo) <= O(alpha_(u)^(2)k)+O(|alpha_(u)kf|)+O(1)],[s u p_(t in[0,T])||gradL_(nB1,l)||_(oo) <= O(alpha_(u)^(2))+O(|alpha_(u)(g_(l)a)/(p_(l)L^(k))|)+O(1)","l=1","2","dots","k_(1)],[s u p_(t in[0,T])||gradL_(nB2,e)||_(oo) <= O(alpha_(u)^(2))+O(|alpha_(u)(h_(e)a)/(q_(e)L^(k-1))|)+O(1)","e=1","2","dots","k_(2)]:}\begin{aligned} & \sup _{t \in[0, T]}\left\|\nabla \mathcal{L}_{n \mathcal{D}}\right\|_{\infty} \leq \mathcal{O}\left(\alpha_{u}^{2} k\right)+\mathcal{O}\left(\left|\alpha_{u} k f\right|\right)+\mathcal{O}(1) \\ & \sup _{t \in[0, T]}\left\|\nabla \mathcal{L}_{n \mathcal{B} 1, l}\right\|_{\infty} \leq \mathcal{O}\left(\alpha_{u}^{2}\right)+\mathcal{O}\left(\left|\alpha_{u} \frac{g_{l} a}{p_{l} L^{k}}\right|\right)+\mathcal{O}(1), l=1,2, \ldots, k_{1} \\ & \sup _{t \in[0, T]}\left\|\nabla \mathcal{L}_{n \mathcal{B} 2, e}\right\|_{\infty} \leq \mathcal{O}\left(\alpha_{u}^{2}\right)+\mathcal{O}\left(\left|\alpha_{u} \frac{h_{e} a}{q_{e} L^{k-1}}\right|\right)+\mathcal{O}(1), e=1,2, \ldots, k_{2} \end{aligned}

在不失一般性的前提下,我们假设 α u > 0 α u > 0 alpha_(u) > 0\alpha_{u}>0 。从(30)-(31)可以看出,两个 hnPINN 的损失分量的梯度边界在很大程度上取决于 k , k f , g l a p 1 L k k , k f , g l a p 1 L k k,kf,(g_(l)a)/(p_(1)L^(k))k, k f, \frac{g_{l} a}{p_{1} L^{k}} h e a q e L k 1 h e a q e L k 1 (h_(e)a)/(q_(e)L^(k-1))\frac{h_{e} a}{q_{e} L^{k-1}} l = 1 , 2 , , k 1 l = 1 , 2 , , k 1 l=1,2,dots,k_(1)l=1,2, \ldots, k_{1} e = 1 , 2 , , k 2 e = 1 , 2 , , k 2 e=1,2,dots,k_(2)e=1,2, \ldots, k_{2} 的大小。特别是当右边项巨大或太小时,梯度流可能会爆炸或


如果 α u α u alpha_(u)\alpha_{u} 的值选择不当,梯度将分别消失。因此,利用辅助输出标度器 α u α u alpha_(u)\alpha_{u} 将梯度边界调整到合适的范围,以避免上述障碍,从而强化训练过程。备注 3.5 3.6 3.5 3.6 3.5-3.63.5-3.6 进一步从一些角度介绍了两种 hnPINN 方法的特点以及 α u α u alpha_(u)\alpha_{u} 的相应作用。这些都是第 3.3.2 节中构建启发式框架以确定合适的 α u α u alpha_(u)\alpha_{u} 的灵感来源。

备注 3.5.1 型 hnPINN 控制的是 PDE 参数(右侧项)的大小,而 2 型 hnPINN 调整的是解导数(左侧项)的大小。此外,两种 hnPINN 的至高梯度边界 sup L = max { sup L n D , sup L n B 1 , l L = max sup L n D , sup L n B 1 , l ||gradL||_(oo)=max{s u p||gradL_(nD)||_(oo),s u p||gradL_(nB1,l)||_(oo):}\|\nabla \mathcal{L}\|_{\infty}=\max \left\{\sup \left\|\nabla \mathcal{L}_{n \mathcal{D}}\right\|_{\infty}, \sup \left\|\nabla \mathcal{L}_{n \mathcal{B} 1, l}\right\|_{\infty}\right. , sup L n B 2 , e } sup L n B 2 , e {: s u p||gradL_(nB2,e)||_(oo)}\left.\sup \left\|\nabla \mathcal{L}_{n B 2, e}\right\|_{\infty}\right\} 的大小顺序也不同。从 (30) 中可以看出,1 型 hnPINN 的 sup L sup L s u p||gradL||_(oo)\sup \|\nabla \mathcal{L}\|_{\infty} 不能小于 O ( k ) O ( k ) O(k)\mathcal{O}(k) ,而 2 型 hnPINN 的 sup L sup L s u p||gradL||_(oo)\sup \|\nabla \mathcal{L}\|_{\infty} 则与 α u α u alpha_(u)\alpha_{u} 四次方相关,如 (31) 所示。这一特性带来了这些归一化方法的利弊。具体来说,如果 PINN 损失函数的非条件化是由右侧参数引起的,则类型-1 模型比类型-2 模型更合适。这是因为类型-2 的 α u α u alpha_(u)\alpha_{u} 必须与右侧项成正比,才能将左侧解导数调整为合适的大小阶,根据 (31) 所述,当这些量因 sup L sup L s u p||gradL||_(oo)\sup \|\nabla \mathcal{L}\|_{\infty} 不足而过小或过大时,类型-2 hnPINN 训练过程就会因此消失或发散。此外,如果由于 PDE 问题的微分阶数 k k kk 过大和/或左侧项中的解导数强度过大而导致训练过程效率低下,则 1 型模型可能会因为过大的 sup L L ||gradL||_(oo)\|\nabla \mathcal{L}\|_{\infty} 而不适合,而应采用 2 型模型。

备注 3.6. α u α u alpha_(u)\alpha_{u} 对两种 hnPINN 类型的损失梯度边界的作用是不同的。根据 (30), α u α u alpha_(u)\alpha_{u} 以负 1 的幂次改变了 1 型 hnPINN 的梯度边界,而指数式调整了 2 型 hnPINN 的梯度边界,如 (31) 所示,以正幂次调整了 2 型 hnPINN 的梯度边界。这就导致了在确定最优 α u α u alpha_(u)\alpha_{u} 以最大化每种类型的 hnPINN 性能时的不同策略。


3.3.2.选择二级输出缩放器的框架


根据上述分析,我们建立了一个确定合适的 α u α u alpha_(u)\alpha_{u} 的框架。根据(30)-(31),我们对两个层次归一化形式(22)-(23)的所谓 hnPINN 梯度约束特征函数 C L C L C_(||gradL||)C_{\|\nabla \mathcal{L}\|} 定义如下
  •  类型 1 :
C L ( α u ) = max { k + 1 α u M 2 [ f ( L x ¯ ) ] , 1 α u M 2 [ g l ( L x ¯ ( E ) ) a k p l L k ] 1 α u M 2 [ h e ( L x ¯ ( N ) ) a k q e L k 1 ] } C L α u = max k + 1 α u M 2 [ f ( L x ¯ ) ] , 1 α u M 2 g l L x ¯ ( E ) a k p l L k 1 α u M 2 h e L x ¯ ( N ) a k q e L k 1 {:[C_(||gradL||)(alpha_(u))= max{k+(1)/(alpha_(u))M_(2)[f(L( bar(x)))],(1)/(alpha_(u))M_(2)[(g_(l)(L bar(x)^((E)))a_(k))/(p_(l)L^(k))]:}],[{:(1)/(alpha_(u))M_(2)[(h_(e)(L bar(x)^((N)))a_(k))/(q_(e)L^(k-1))]}]:}\begin{aligned} C_{\|\nabla \mathcal{L}\|}\left(\alpha_{u}\right)= & \max \left\{k+\frac{1}{\alpha_{u}} M_{2}[f(L \bar{x})], \frac{1}{\alpha_{u}} M_{2}\left[\frac{g_{l}\left(L \bar{x}^{(E)}\right) a_{k}}{p_{l} L^{k}}\right]\right. \\ & \left.\frac{1}{\alpha_{u}} M_{2}\left[\frac{h_{e}\left(L \bar{x}^{(N)}\right) a_{k}}{q_{e} L^{k-1}}\right]\right\} \end{aligned}
  •  类型 2:
C V C ( α u ) = max { α u 2 k + α u M 2 [ k f ( L x ¯ ) ] , α u 2 + α u M 2 [ g l ( L x ¯ ( E ) ) a k p l L k ] C V C α u = max α u 2 k + α u M 2 [ k f ( L x ¯ ) ] , α u 2 + α u M 2 g l L x ¯ ( E ) a k p l L k C_(||VC||)(alpha_(u))=max{alpha_(u)^(2)k+alpha_(u)M_(2)[kf(L( bar(x)))],alpha_(u)^(2)+alpha_(u)M_(2)[(g_(l)(L bar(x)^((E)))a_(k))/(p_(l)L^(k))]:}C_{\|V \mathcal{C}\|}\left(\alpha_{u}\right)=\max \left\{\alpha_{u}^{2} k+\alpha_{u} M_{2}[k f(L \bar{x})], \alpha_{u}^{2}+\alpha_{u} M_{2}\left[\frac{g_{l}\left(L \bar{x}^{(E)}\right) a_{k}}{p_{l} L^{k}}\right]\right.
α u 2 + α u M 2 [ h e ( L x ¯ ( N ) ) a k q e L k 1 ] } α u 2 + α u M 2 h e L x ¯ ( N ) a k q e L k 1 {:alpha_(u)^(2)+alpha_(u)M_(2)[(h_(e)(L bar(x)^((N)))a_(k))/(q_(e)L^(k-1))]}\left.\alpha_{u}^{2}+\alpha_{u} M_{2}\left[\frac{h_{e}\left(L \bar{x}^{(N)}\right) a_{k}}{q_{e} L^{k-1}}\right]\right\}

其中,区间 [ T 1 , T 2 ] T 1 , T 2 [T_(1),T_(2)]\left[T_{1}, T_{2}\right] 上的 M 2 [ f ] M 2 [ f ] M_(2)[f]M_{2}[f] f ( x ) f ( x ) f(x)f(x) 的二次平均值,定义如下

M 2 [ f ] = ( 1 T 2 T 1 T 1 T 2 f 2 d x ) 1 2 M 2 [ f ] = 1 T 2 T 1 T 1 T 2 f 2 d x 1 2 M_(2)[f]=((1)/(T_(2)-T_(1))int_(T_(1))^(T_(2))f^(2)dx)^((1)/(2))M_{2}[f]=\left(\frac{1}{T_{2}-T_{1}} \int_{T_{1}}^{T_{2}} f^{2} d x\right)^{\frac{1}{2}}

所提出的函数 C L ( α u ) C L α u C_(||gradL||)(alpha_(u))C_{\|\nabla \mathcal{L}\|}\left(\alpha_{u}\right) 旨在说明两个 hnPINN 模型的最大损失梯度边界与二次标度器 α u α u alpha_(u)\alpha_{u} 之间的关系。需要注意的是, C L ( α u ) C L α u C_(||gradL||)(alpha_(u))C_{\|\nabla \mathcal{L}\|}\left(\alpha_{u}\right) 应在 [ C L , C ¯ L ] C _ L , C ¯ L [C__(||gradL||), bar(C)_(||gradL||)]\left[\underline{C}_{\|\nabla \mathcal{L}\|}, \bar{C}_{\|\nabla \mathcal{L}\|}\right] 的适当范围内,以保证 hnPINN 的训练效率, C L C _ L C__(||gradL||)\underline{C}_{\|\nabla \mathcal{L}\|} C ¯ L C ¯ L bar(C)_(||gradL||)\bar{C}_{\|\nabla \mathcal{L}\|} 分别代表 C L ( α u ) C L α u C_(||gradL||)(alpha_(u))C_{\|\nabla \mathcal{L}\|}\left(\alpha_{u}\right) 的适当下限值和上限值。虽然最佳 α u α u alpha_(u)\alpha_{u} 取决于问题类型、所使用的网络结构和训练算法,但根据我们的深入实验,其边界 [ C L , C ¯ L ] C _ L , C ¯ L [C__(||gradL||), bar(C)_(||gradL||)]\left[\underline{C}_{\|\nabla \mathcal{L}\|}, \bar{C}_{\|\nabla \mathcal{L}\|}\right] 似乎对它们并不敏感。此外,式 (32)-(33) 中的 C L ( α u ) C L α u C_(||gradL||)(alpha_(u))C_{\|\nabla \mathcal{L}\|}\left(\alpha_{u}\right) 函数相对于 α u > 0 α u > 0 alpha_(u) > 0\alpha_{u}>0 是单调的,对于具有 α u = C L 1 ( C L ) α _ u = C L 1 C _ L alpha __(u)=C_(||gradL||)^(-1)(C__(||gradL||))\underline{\alpha}_{u}=C_{\|\nabla \mathcal{L}\|}^{-1}\left(\underline{C}_{\|\nabla \mathcal{L}\|}\right) α ¯ u = C L 1 ( C ¯ L ) α ¯ u = C L 1 C ¯ L bar(alpha)_(u)=C_(||gradL||)^(-1)( bar(C)_(||gradL||))\bar{\alpha}_{u}=C_{\|\nabla \mathcal{L}\|}^{-1}\left(\bar{C}_{\|\nabla \mathcal{L}\|}\right) 的每个问题,都存在与 [ C L , C ¯ L ] C _ L , C ¯ L [C__(||gradL||), bar(C)_(||gradL||)]\left[\underline{C}_{\|\nabla \mathcal{L}\|}, \bar{C}_{\|\nabla \mathcal{L}\|}\right] 相对应的排他性约束 [ α u , α ¯ u ] α _ u , α ¯ u [alpha __(u), bar(alpha)_(u)]\left[\underline{\alpha}_{u}, \bar{\alpha}_{u}\right] ,其中 C L 1 C L 1 C_(||gradL||)^(-1)C_{\|\nabla \mathcal{L}\|}^{-1} C L C L C_(||gradL||)C_{\|\nabla \mathcal{L}\|} 的反函数。此外,由于备注 3.5-3.6 中讨论了两个 hnPINN 模型的用法和 α u α u alpha_(u)\alpha_{u} 的作用,我们可以直观地认识到,类型 1 hnPINN 的 C L ( α u ) C L α u C_(||gradL||)(alpha_(u))C_{\|\nabla \mathcal{L}\|}\left(\alpha_{u}\right) 的满意范围将远高于类型 2 hnPINN 的满意范围。在本研究中,对于类型 1 和类型 2 hnPINN,我们启发式地建议 [ C L , C ¯ L ] C _ L , C ¯ L [C__(||gradL||), bar(C)_(||gradL||)]\left[\underline{C}_{\|\nabla \mathcal{L}\|}, \bar{C}_{\|\nabla \mathcal{L}\|}\right] 分别为 [ k + 1 , k + 100 ] [ k + 1 , k + 100 ] [k+1,k+100][k+1, k+100] [ 0.001 , 0.1 ] [ 0.001 , 0.1 ] [0.001,0.1][0.001,0.1] ,其中 k k kk 是相关 PDE 的微分阶数。因此,合适的 α u [ α u α ¯ u ] α u α _ u α ¯ u alpha_(u)in[alpha __(u) bar(alpha)_(u)]\alpha_{u} \in\left[\underline{\alpha}_{u} \bar{\alpha}_{u}\right] 可以通过 α u C L α u C L alpha_(u)-C_(||gradL||)\alpha_{u}-C_{\|\nabla \mathcal{L}\|} 曲线确定。由于 α u α u alpha_(u)\alpha_{u} C L C L C_(||gradL||)C_{\|\nabla \mathcal{L}\|} 的值呈指数倍增,因此建议采用一种经济的调整策略,即 α u α u alpha_(u)\alpha_{u} 应从边界 [ α u , α ¯ u ] α _ u , α ¯ u [alpha __(u), bar(alpha)_(u)]\left[\underline{\alpha}_{u}, \bar{\alpha}_{u}\right] 开始呈指数倍增,直至获得足够的训练性能。 算法 2 详细描述了根据 α u C L α u C L alpha_(u)-C_(||gradL||)\alpha_{u}-C_{\|\nabla \mathcal{L}\|} 曲线和边界 [ C L , C ¯ L ] C _ L , C ¯ L [C__(||gradL||), bar(C)_(||gradL||)]\left[\underline{C}_{\|\nabla \mathcal{L}\|}, \bar{C}_{\|\nabla \mathcal{L}\|}\right] 校准 α u α u alpha_(u)\alpha_{u} 的拟议方法。值得注意的是,对于本研究中的大多数问题,只需进行粗调即可获得令人满意的 α u α u alpha_(u)\alpha_{u} 。因此,基于算法 2 的 α u α u alpha_(u)\alpha_{u} 调整尝试在实践中肯定是经济而有益的。算法 3 最后总结了选择合适的二次输出缩放器 α u α u alpha_(u)\alpha_{u} 的整个过程。在第 3.4.3 节中,将通过一个具有不同系数的具体问题来说明如何通过算法 3 选择合适的 α u α u alpha_(u)\alpha_{u} 及其大小如何影响 hnPINN 的训练性能。

 3.4.一个玩具问题


在本节中,我们使用一个简单的 BVP 案例来研究悬臂杆在压缩载荷下的行为,以实际说明 vanilla PINN 的局限性、DNN 宽度对 PINN 训练过程的影响、二级标度器的重要性及其选择程序对 hnPINN 性能的影响。问题定义如下
a d 2 u d x 2 = f , x ( 0 , L ) u ( L ) = 0 a d u ( 0 ) d x = h a d 2 u d x 2 = f , x ( 0 , L ) u ( L ) = 0 a d u ( 0 ) d x = h {:[a(d^(2)u)/(dx^(2))=f","x in(0","L)],[u(L)=0],[a(du(0))/(dx)=h]:}\begin{aligned} a \frac{d^{2} u}{d x^{2}} & =f, x \in(0, L) \\ u(L) & =0 \\ a \frac{d u(0)}{d x} & =h \end{aligned}

其中 a , f a , f a,fa, f h h hh 为常数, a , f , h R a , f , h R a,f,h inRa, f, h \in \mathbb{R} 为常数。PINN 损失函数的定义类似于 (9),其中

L D = 1 N D i = 1 N D [ a d 2 u ^ ( x i ) d x 2 f ] 2 , x i ( 0 , L ) L D = 1 N D i = 1 N D a d 2 u ^ x i d x 2 f 2 , x i ( 0 , L ) L_(D)=(1)/(N_(D))sum_(i=1)^(N_(D))[a(d^(2)( hat(u))(x_(i)))/(dx^(2))-f]^(2),x_(i)in(0,L)\mathcal{L}_{D}=\frac{1}{N_{D}} \sum_{i=1}^{N_{D}}\left[a \frac{d^{2} \hat{u}\left(x_{i}\right)}{d x^{2}}-f\right]^{2}, x_{i} \in(0, L)
L B 1 = u ^ ( L ) 2 L B 1 = u ^ ( L ) 2 L_(B1)= hat(u)(L)^(2)\mathcal{L}_{B 1}=\hat{u}(L)^{2}
L B 2 = [ a d u ^ ( 0 ) d x h ] 2 L B 2 = a d u ^ ( 0 ) d x h 2 L_(B2)=[a(d( hat(u))(0))/(dx)-h]^(2)\mathcal{L}_{B 2}=\left[a \frac{d \hat{u}(0)}{d x}-h\right]^{2}

在训练过程中测量损失梯度 oo\infty 正态值 θ L θ L grad_(theta)L\nabla_{\theta} \mathcal{L} 和相对误差 L 2 L 2 L_(2)L_{2} ,以研究 PDE 系数和域大小对 PINN 精度的影响。预测 u ^ u ^ hat(u)\hat{\mathbf{u}} 与目标解 u u u\mathbf{u} 之间的相对 L 2 L 2 L_(2)L_{2} 误差由以下公式确定

δ L 2 = u ^ u 2 u 2 δ L 2 = u ^ u 2 u 2 delta_(L_(2))=(||( hat(u))-u||_(2))/(||u||_(2))\delta_{L_{2}}=\frac{\|\hat{\mathbf{u}}-\mathbf{u}\|_{2}}{\|\mathbf{u}\|_{2}}

其中 2 2 ||*||_(2)\|\cdot\|_{2} 定义了 L 2 L 2 L_(2)L_{2} 正算子。本节中的所有实验均采用无动量或学习率衰减的全批 GD 算法。此外,在计算 PINN 损失函数时,使用了从内域均匀生成的 1000 个定位点。


3.4.1.非条件损失函数现象


本节将对问题 (35) 的两次试验的训练动态进行研究,以明确 PDE 系数和问题域大小对 PINN 模型训练效率的影响。第一次试验中, L = 1 , f = 0.0005 L = 1 , f = 0.0005 L=1,f=-0.0005L=1, f=-0.0005 h = 50 h = 50 h=50h=50 是固定的, a = { 1 , 10 , 100 , 1000 } a = { 1 , 10 , 100 , 1000 } a={1,10,100,1000}a=\{1,10,100,1000\} 是变化的。第二个测试中, a = 10 a = 10 a=10a=10 f = 0.0005 f = 0.0005 f=-0.0005f=-0.0005 h = 50 h = 50 h=50h=50 被设定, L = { 0.1 , 1 , 10 } L = { 0.1 , 1 , 10 } L={0.1,1,10}L=\{0.1,1,10\} 被分配。采用全批量 GD 方法训练具有 500 个节点、带有 tanh 激活函数的大宽度浅层 MLP,学习率为 0.01。第一次和第二次测试的最大历元数分别为 2000 和 8000。考虑到第一次试验的训练动态(如图 1(a)-1(b) 所示), oo\infty 的正态值 θ L θ L grad_(theta)L\nabla_{\boldsymbol{\theta}} \mathcal{L} 在第一个epochs分别随着 a a aa 的增量而扩大。尤其是 a = 1000 a = 1000 a=1000a=1000 θ L θ L ||grad_(theta)L||_(oo)\left\|\nabla_{\theta} \mathcal{L}\right\|_{\infty} 值出现了超调,而对于 a = { 10 , 100 } a = { 10 , 100 } a={10,100}a=\{10,100\} 的情况,如图 1(b) 所示,它们在最初的几个历元后处于适当的范围内,因此训练过程在迭代中变得稳定。而 a = 1 , θ L a = 1 , θ L a=1,||grad_(theta)L||_(oo)a=1,\left\|\nabla_{\theta} \mathcal{L}\right\|_{\infty} 在第一阶段似乎太小,从而降低了训练收敛速度。图 1©证明了上述讨论,在图 1©中,对于 a = { 10 , 100 } a = { 10 , 100 } a={10,100}a=\{10,100\} 的情况,GD 算法仅用了 400 个历时就迅速接近了精确结果,而对于 a = 1000 a = 1000 a=1000a=1000 则出现了偏离,对于 a = 1 a = 1 a=1a=1 则收敛速度非常慢。因此,第一次实验表明,虚无 PINN 方法对 PDE 系数值非常敏感。

图 2 显示了 PINN 方法在训练过程中获得的有关第二次测试的不同 L L LL θ L θ L ||grad_(theta)L||_(oo)\left\|\nabla_{\theta} \mathcal{L}\right\|_{\infty} 大小和相对 L 2 L 2 L_(2)L_{2} 误差。从图 2(a) 和 2(b) 可以看出,第一阶段 L = 10 L = 10 L=10L=10 θ L θ L ||grad_(theta)L||_(oo)\left\|\nabla_{\theta} \mathcal{L}\right\|_{\infty} 值远远高于 L = { 0.1 , 1 } L = { 0.1 , 1 } L={0.1,1}L=\{0.1,1\} θ L θ L ||grad_(theta)L||_(oo)\left\|\nabla_{\theta} \mathcal{L}\right\|_{\infty} 值。这导致 PINN 方法无法收敛到图 2© 所示的 L = 10 L = 10 L=10L=10 情况下的正确解。上述两个实验结果,一方面证实了定理 3.2 及其推论 3.2.1 的理论预测,另一方面也暴露了传统 PINN 方法在求解各种系数和域大小的 PDE 问题时的弱点。因此,我们认识到,在实际应用 PINN 方法求解 PDE 时,减小 PDE 系数和域大小的影响至关重要。


3.4.2.神经网络宽度的重要性


推论 3.2.1 意味着,当浅 MLP 宽度 N N NN 渐近无穷大时,式 (9)-(10) 中损失函数的梯度流与参数 f , g f , g f,gf, g h h hh 无关。在这一部分中,我们进行了有关该预测的实验,其中采用学习率为 0.01 的 GD 方法,使用 N = { 30 , 100 , 500 } N = { 30 , 100 , 500 } N={30,100,500}N=\{30,100,500\} 的 MLP 解决问题 (35)。 a = 10 , L = 1 a = 10 , L = 1 a=10,L=1a=10, L=1 h = 50 h = 50 h=50h=50 为预定值, f f ff [ 1 , 50 ] [ 1 , 50 ] [1,50][1,50] 的范围内变化。从图 3(a) 中可以看出,PINN 求解精度随 N N NN 的增大而提高,其中 PINN 方法在 f = 10 f = 10 f=10f=10 N = 30 N = 30 N=30N=30 f = 50 f = 50 f=50f=50 N = 100 N = 100 N=100N=100 时失效。当 N = 500 N = 500 N=500N=500 时,PINN 成功地为 f f ff 的所有情况找到了令人满意的解。上述观察结果实际表明,在不同的 f f ff 值下,大宽度 NN 对 PINN 性能的影响至关重要。

从定理 3.2 可以看出,在处理 f f ff 的高值时,GD 算法可能会产生非常大的更新步长。
Algorithm 2 Calibrating secondary output scaler \(\alpha_{u}\)
Require: \(\alpha_{u}-C_{\|\nabla \mathcal{L}\|}\) curve, \(\left[\underline{C}_{\|\nabla \mathcal{L}\|}, \bar{C}_{\|\nabla \mathcal{L}\|}\right]\)
    \(\underline{P}_{c} \leftarrow \ln \left(\underline{C}_{\|\nabla \mathcal{L}\|}\right), \bar{P}_{c} \leftarrow \ln \left(\bar{C}_{\|\nabla \mathcal{L}\|}\right), t \leftarrow 1\)
    \(P_{c}^{(t)} \leftarrow \frac{\underline{P}_{c}+\bar{P}_{c}}{2}, C_{\|\nabla \mathcal{L}\|}^{(t)} \leftarrow e^{P_{c}^{(t)}}\)
    \(\alpha_{u}^{(t)} \leftarrow C_{\|\nabla \mathcal{L}\|}^{-1}\left(C_{\|\nabla \mathcal{L}\|}^{(t)}\right)\) by calculation or tracking \(C_{\|\nabla \mathcal{L}\|}^{(t)}\) value from \(\alpha_{u}-C_{\|\nabla \mathcal{L}\|}\) curve
    Train hnPINN model using \(\alpha_{u}^{(t)}\)
    while not end of tuning procedure do
        \(t \leftarrow t+1\)
        if \(\overline{h n}_{\bar{P}}\) PINN training process is unstable then
            \(\bar{P}_{c} \leftarrow P_{c}^{(t-1)}\)
        else if hnPINN training process is slow then
            \(\underline{P}_{c} \leftarrow P_{c}^{(t-1)}\)
        end if
            \(P_{c}^{(t)} \leftarrow \frac{\underline{P}_{c}+\bar{P}_{c}}{2}, C_{\|\nabla \mathcal{D}\|}^{(t)} \leftarrow e^{P_{c}^{(t)}}\)
            \(\alpha_{u}^{(t)} \leftarrow C_{\|\nabla \mathcal{L}\|}^{-1}\left(C_{\|\nabla \mathcal{L}\|}^{(t)}\right)\) by calculation or tracking \(C_{\|\nabla \mathcal{L}\|}^{(t)}\) value from \(\alpha_{u}-C_{\|\nabla \mathcal{L}\|}\) curve
        Train hnPINN model using \(\alpha_{u}^{(t)}\)
        if hnPINN performance is satisfactory then
            End tuning procedure
        else
            Continue tuning procedure
        end if
    end while
return \(\alpha_{u} \leftarrow \alpha_{u}^{(t)} \quad \triangleright\) Optimal \(\alpha_{u}\)

算法 3 二级输出缩放器的优化选择 α u α u alpha_(u)\alpha_{u}


要求分级规范化表格(类型 1 (22) 或类型 2 (23)


1: 根据公式 (32) - (33) 确定梯度边界特征 C L ( α u ) C L α u C_(||gradL||)(alpha_(u))C_{\|\nabla \mathcal{L}\|}\left(\alpha_{u}\right)


确定 α u C L α u C L alpha_(u)-C_(||gradL||)\alpha_{u}-C_{\|\nabla \mathcal{L}\|} 曲线


确定 [ C L , C ¯ L ] C _ L , C ¯ L [C__(||gradL||), bar(C)_(||gradL||)]\left[\underline{C}_{\|\nabla \mathcal{L}\|}, \bar{C}_{\|\nabla \mathcal{L}\|}\right] 范围 [ k + 1 , k + 100 ] [ k + 1 , k + 100 ] quad▹[k+1,k+100]\quad \triangleright[k+1, k+100] 为 1 型, [ 0.001 , 0.1 ] [ 0.001 , 0.1 ] [0.001,0.1][0.001,0.1] 为 2 型


根据 α u C L α u C L alpha_(u)-C_(||gradL||)\alpha_{u}-C_{\|\nabla \mathcal{L}\|} 曲线确定 [ α u , α ¯ u ] α _ u , α ¯ u [alpha __(u), bar(alpha)_(u)]\left[\underline{\alpha}_{u}, \bar{\alpha}_{u}\right] [ C L , C ¯ L ] C _ L , C ¯ L [C__(||gradL||), bar(C)_(||gradL||)]\left[\underline{C}_{\|\nabla \mathcal{L}\|}, \bar{C}_{\|\nabla \mathcal{L}\|}\right] 之间的范围


通过算法 2 校准 α u [ α u , α ¯ u ] α u α _ u , α ¯ u alpha_(u)in[alpha __(u), bar(alpha)_(u)]\alpha_{u} \in\left[\underline{\alpha}_{u}, \bar{\alpha}_{u}\right] 以达到最优值

 返回 α u α u alpha_(u)\alpha_{u}

\triangleright 二级输出缩放器


图 1.在 a a aa 变化的情况下,损失梯度 θ L θ L ||grad_(theta)L||_(oo)\left\|\nabla_{\theta} \mathcal{L}\right\|_{\infty} 和相对 L 2 L 2 L_(2)L_{2} 误差 δ L 2 δ L 2 delta_(L_(2))\delta_{L_{2}} oo\infty 正态与历时的函数关系。


如果网络宽度 N N NN 没有相应地增大, L D L D ||gradL_(D)||_(oo)\left\|\nabla \mathcal{L}_{\mathcal{D}}\right\|_{\infty} 就会增大,从而使训练过程不稳定或发散。图 3(b) 显示了所考虑的 PINN 模型在 f = 50 f = 50 f=50f=50 时的训练动态,证实了这一点。从图 3(b) 中可以看出,使用 N = { 30 , 100 } N = { 30 , 100 } N={30,100}N=\{30,100\} 训练 PINN 模型时, L D L D ||gradL_(D)||_(oo)\left\|\nabla \mathcal{L}_{\mathcal{D}}\right\|_{\infty} 的幅度过大,从而破坏了这些优化过程,而使用 N = 500 N = 500 N=500N=500 的 PINN 梯度流基本稳定,并最终在训练过程结束时收敛。传统 PINN 方法的上述限制极大地推动了 hnPINN 方法在解决非复杂问题时的应用。

PDE 问题,而无需使用大宽度 NN,以节省训练和实施成本。


3.4.3.次级输出扩展器的影响


本节选择 1 型 hnPINN 方法来求解问题 (35)。为了说明次级输出标度 α u α u alpha_(u)\alpha_{u} 的位置及其选择框架的有效性,我们在三个实验中考虑了具有不同幅度标度的右项 f f ff h h hh 。具体来说,参数 a = 10 5 , L = 1 a = 10 5 , L = 1 a=10^(5),L=1a=10^{5}, L=1 是固定的,三对 f f ff h h hh 包括 { 0.0005 , 50 } , { 500 , 0.0005 } { 0.0005 , 50 } , { 500 , 0.0005 } {0.0005,50},{500,0.0005}\{0.0005,50\},\{500,0.0005\} .


图 2.<在 L L LL 变化的情况下,损失梯度 θ L θ L ||grad_(theta)L||_(oo)\left\|\nabla_{\theta} \mathcal{L}\right\|_{\infty} 和相对 L 2 L 2 L_(2)L_{2} 误差 δ L 2 δ L 2 delta_(L_(2))\delta_{L_{2}} 与时程的函数关系。


图 3.在 f f ff 变化下,不同 NN 宽度的相对 L 2 L 2 L_(2)L_{2} 误差 δ L 2 δ L 2 delta_(L_(2))\delta_{L_{2}} 和损耗梯度 oo\infty 正态 θ L θ L ||grad_(theta)L||_(oo)\left\|\nabla_{\theta} \mathcal{L}\right\|_{\infty}


图 4.第 1 次实验中, α u C L α u C L alpha_(u)-C_(||gradL||)\alpha_{u}-C_{\|\nabla \mathcal{L}\|} 曲线、 oo\infty 损失梯度正态 θ L θ L ||grad_(theta)L||_(oo)\left\|\nabla_{\theta} \mathcal{L}\right\|_{\infty} 和相对 L 2 L 2 L_(2)L_{2} 误差 δ L 2 δ L 2 delta_(L_(2))\delta_{L_{2}} 与时间的函数关系。


{ 0.05 , 0.05 } { 0.05 , 0.05 } {0.05,0.05}\{0.05,0.05\} 分别用于第一、第二和第三次实验。实验采用 50 个节点的全连接浅层 MLP 结构,并使用 tanh 激活函数。三次实验均采用学习率为 0.001 的 GD 算法。

图 4 显示了第一次检查的损耗梯度边界 α u C L α u C L alpha_(u)-C_(||gradL||)\alpha_{u}-C_{\|\nabla \mathcal{L}\|} 曲线和收敛历程,以及相对误差 L 2 L 2 L_(2)L_{2} 。如图 4(a)所示,在这种情况下,二次标度 [ α u , α ¯ u ] α _ u , α ¯ u [alpha __(u), bar(alpha)_(u)]\left[\underline{\alpha}_{u}, \bar{\alpha}_{u}\right] 的边界为 [ 1 , 100 ] [ 1 , 100 ] [1,100][1,100] 。可以看出,hnPINN 训练过程在 α u = 0.1 α u = 0.1 alpha_(u)=0.1\alpha_{u}=0.1 处出现了偏离,因为这个 α u α u alpha_(u)\alpha_{u} 超出了允许范围。然而,当 α u = 10 α u = 10 alpha_(u)=10\alpha_{u}=10 时,hnPINN 模型的收敛速度非常慢,这表明最佳 α u α u alpha_(u)\alpha_{u} 必须小于 10。图 4(b) 还显示,在 α u = 0.1 α u = 0.1 alpha_(u)=0.1\alpha_{u}=0.1 时, θ L θ L ||grad_(theta)L||_(oo)\left\|\nabla_{\theta} \mathcal{L}\right\|_{\infty} 显著增大,而在 α u = 10 α u = 10 alpha_(u)=10\alpha_{u}=10 时, θ L θ L ||grad_(theta)L||_(oo)\left\|\nabla_{\theta} \mathcal{L}\right\|_{\infty} 显著减小,这分别破坏了这些 α u α u alpha_(u)\alpha_{u} 设置下的 hnPINN 学习过程并减缓了其速度。通过算法 3 调整 α u α u alpha_(u)\alpha_{u}


提供了最优 α u = 1 α u = 1 alpha_(u)=1\alpha_{u}=1 ,与上述两种方案相比,hnPINN 模型的结果最好,如图 4© 所示。这也意味着 ndPINN 方法成功地解决了第一种设置下的问题 (35)。

如图 5-6 所示,在第二和第三次实验中观察到了 hnPINN 的卓越性能。可以看出,在解决这些问题时,hnPINN 成功收敛于算法 3 估计的 α u = 50 α u = 50 alpha_(u)=50\alpha_{u}=50 α u = 0.005 α u = 0.005 alpha_(u)=0.005\alpha_{u}=0.005 值。需要强调的是,根据图 5(a) 和图 6(a),在这两种情况下, α u = 1 α u = 1 alpha_(u)=1\alpha_{u}=1 值都超出了 [ α u , α ¯ u ] α _ u , α ¯ u [alpha __(u), bar(alpha)_(u)]\left[\underline{\alpha}_{u}, \bar{\alpha}_{u}\right] 的范围。这就导致了 ndPINN 不适合这些情况,造成了图 5(b)-6(b) 所示的 ndPINN 梯度流的爆炸和消失。上述结果显然证实了基于算法 3 选择 α u α u alpha_(u)\alpha_{u} 的成功,以及 α u α u alpha_(u)\alpha_{u} 在 hnPINN 方法中的关键作用。


图 5.第 2 次实验的 α u C L α u C L alpha_(u)-C_(||gradL||)\alpha_{u}-C_{\|\nabla \mathcal{L}\|} 曲线、损失梯度 θ L θ L ||grad_(theta)L||_(oo)\left\|\nabla_{\theta} \mathcal{L}\right\|_{\infty} oo\infty 正态值和相对 L 2 L 2 L_(2)L_{2} 误差 δ L 2 δ L 2 delta_(L_(2))\delta_{L_{2}} 与历时的函数关系。


图 6.第 3 次实验的 α u C L α u C L alpha_(u)-C_(||gradL||)\alpha_{u}-C_{\|\nabla \mathcal{L}\|} 曲线、损失梯度 θ L θ L ||grad_(theta)L||_(oo)\left\|\nabla_{\theta} \mathcal{L}\right\|_{\infty} oo\infty 正态值和相对 L 2 L 2 L_(2)L_{2} 误差 δ L 2 δ L 2 delta_(L_(2))\delta_{L_{2}} 与历时的函数关系。

 4.数值实验


在本节中,我们将探讨所提出的 hnPINN 与 vanilla PINN 和 ndPINN 相比在求解高阶 PDE 方面的有效性。首先,典型的固体力学问题是通过参数研究来深入比较 PINN、ndPINN 和 hnPINN 的。值得注意的是,由于原始 PINN 性能较差,本部分仅对其进行了报告。然后,考虑了具有高频解的一维泊松问题,以研究 PINN 模型在频谱偏差现象下的性能。最后,应用四个基准来证明所提出的 hnPINN 在模拟固体力学中的 PDE 问题时的性能。我们还将 hnPINN 的预测结果与高保真有限元法在这些情况下获得的结果进行了比较。

为了进行公平比较,我们对所有考虑的 PINN 方法都固定了随机种子,以避免随机性对其性能的影响,并收集了 10 次独立运行后的统计结果。每个示例都报告了 PINN 模型相对 L 2 L 2 L_(2)L_{2} 误差的平均值和置信区间。全连接 MLP 架构包括 3 个隐藏层,每个隐藏层有 40 个节点,所有问题均使用 tanh 激活函数。所有 DNN 模型均采用 LBFGS(Nocedal,1980 年)和 Adam(Kingma 和 Ba,2017 年)或 Adam 与 LBFGS 的组合(命名为 Adam-LBFGS)进行训练,其中 Adam-LBFGS 在任何考虑的问题上表现不佳时都会采用。在 Adam-LBFGS 算法中,首先在 80 % 80 % 80%80 \% 训练过程中使用 Adam,然后应用 LBFGS 来完善解决方案。Adam 优化器采用连续衰减的学习率计划,如下所示

μ t = μ 0 1 + λ t μ t = μ 0 1 + λ t mu_(t)=(mu_(0))/(1+lambda t)\mu_{t}=\frac{\mu_{0}}{1+\lambda t}

其中, t t tt 表示训练过程的当前历元, μ 0 = 0.001 μ 0 = 0.001 mu_(0)=0.001\mu_{0}=0.001 λ = 0.001 λ = 0.001 lambda=0.001\lambda=0.001 分别为初始学习率和衰减系数。公式 (3)(4) 中的传统均方损失函数用于所考虑的 PINN 方法,其中搭配


点在结构的物理区域内均匀分布。训练方法所使用的最大历元数取决于每种类型和每个问题。

本节所获得的数值结果证明,就若干问题类型而言,hnPINN 在求解精度、收敛速度和性能稳定性方面均优于两种 PINN 和 ndPINN。此外,与使用细网格的相应有限元解法相比,所提出的方法也取得了更好的结果。hnPINN 的上述效率通过实验证明如下。


4.1.敏感性分析


本节研究了普通 PINN、ndPINN 和所提出的 hnPINN 在 PDE 系数、物理域大小、DNN 大小和定位点数量影响下的性能。灵敏度分析是在一个简单的静态问题上进行的,在这个问题中,一根杆在体力和外力作用下被压缩(简称为压缩杆问题)。附录 B.1 提到了这个问题。采用了 1 型 hnPINN,其针对压缩棒问题的分层归一化形式如下
d 2 u ¯ d x ¯ 2 = g A α u , x ¯ ( 0 , L X 0 ) d 2 u ¯ d x ¯ 2 = g A α u , x ¯ 0 , L X 0 (d^(2)( bar(u)))/(d bar(x)^(2))=-(gA)/(alpha_(u)), bar(x)in(0,(L)/(X_(0)))\frac{d^{2} \bar{u}}{d \bar{x}^{2}}=-\frac{g A}{\alpha_{u}}, \bar{x} \in\left(0, \frac{L}{X_{0}}\right)
u ¯ ( L X 0 ) = 0 u ¯ L X 0 = 0 bar(u)((L)/(X_(0)))=0\bar{u}\left(\frac{L}{X_{0}}\right)=0
d u ¯ ( 0 ) d x ¯ = P X 0 α u E A U 0 d u ¯ ( 0 ) d x ¯ = P X 0 α u E A U 0 (d( bar(u))(0))/(d( bar(x)))=(-PX_(0))/(alpha_(u)EAU_(0))\frac{d \bar{u}(0)}{d \bar{x}}=\frac{-P X_{0}}{\alpha_{u} E A U_{0}}

其中,主标度 X 0 = L , U 0 = X 0 2 E A X 0 = L , U 0 = X 0 2 E A X_(0)=L,U_(0)=(X_(0)^(2))/(EA)X_{0}=L, U_{0}=\frac{X_{0}^{2}}{E A} 是为两种归一化 PINN 方法选择的。次缩放器 α u = α u = alpha_(u)=\alpha_{u}= max { | g a | , | P X 0 E A U 0 | } max | g a | , P X 0 E A U 0 max{|ga|,|(-PX_(0))/(EAU_(0))|}\max \left\{|g a|,\left|\frac{-P X_{0}}{E A U_{0}}\right|\right\} α u = 1 α u = 1 alpha_(u)=1\alpha_{u}=1 分别用于 hnPINN 和 ndPINN。值得注意的是,1 型 hnPINN 的 α u α u alpha_(u)\alpha_{u}

    •  通讯作者:

    电子邮件地址:le.duc.thang0312@gmail.com (T. Le-Duc)、seunghye@sejong.ac.kr (S. Lee)、ngx.hung@hutech.edu.vn (H. Nguyen-Xuan)、jhlee@sejong.ac.kr (J. Lee)。


    https://doi.org/10.1016/j.engappai.2024.108400


    2023 年 12 月 15 日收到;2024 年 3 月 3 日收到修订稿;2024 年 4 月 4 日接受


    可于 2024 年 4 月 25 日在线查阅


    0952-1976/© 2024 爱思唯尔有限公司。保留所有权利。