研究论文
用于求解微分方程的分层归一化物理信息神经网络:固体力学问题的应用
Thang Le-Duc
a
a
^("a ") { }^{\text {a }} 、Seunghye Lee
a
a
^(a) { }^{\mathrm{a}} 、H. Nguyen-Xuan
b
b
^("b ") ^{\text {b }} 、Jaehong Lee
a
,
∗
a
,
∗
^(a,**) { }^{\mathrm{a}, *}
a
a
^(a) { }^{a} 世宗大学建筑工程系深度学习建筑研究中心,地址:209 Neungdong-ro, Gwangiin-gu, Seoul 05006, Republic of Korea b 越南胡志明市 HUTECH 大学 CIRTECH 学院
文章信息
关键词:
物理信息神经网络 层次归一化物理信息神经网络 非立体化 分层标准化 偏微分方程 固体力学
摘要
物理信息神经网络(PINNs)在精确求解偏微分方程(PDEs)时通常会遇到很大的困难,这是因为在训练过程中梯度失效导致了许多病理现象。本文从理论和实验两方面深入研究了 PINN 方法的梯度失调问题。特别是,常规 PINN 方法可以对微不足道的问题进行良好预测,但当其 PDE 系数和/或物理域大小发生变化时,可能无法学习到解决方案。此外,理论分析推断了神经网络结构对 PINN 训练质量的影响,相关实验也证实,使用大宽度多层感知器(MLP)有利于稳定 PINN 训练过程。为了克服上述限制,我们从已发展的理论出发,设计了一种使用分层归一化技术(hnPINN)的新型 PINN 方法。hnPINN 方法的主要思想是:一方面,将原始 PDE 系统转化为两种拟议的无量纲形式之一,以减轻 PDE 系数和域大小的负面影响;另一方面,利用二次输出标度灵活校准梯度流,以有效训练并提高解的精确度。二次输出标度的确定是受 hnPINN 梯度流理论分析的启发,通过启发式框架制定的。 一些典型的 PDE 和固体力学中常见问题的研究结果有力地证实了 hnPINN 的高效性,与 vanilla PINN 和无维度 PINN(ndPINN)相比,hnPINN 在求解精度、收敛性和性能稳定性方面都更胜一筹。作为一种预处理程序,hnPINN 方法不受网络结构的影响,而且与其他最先进的 PINN 模型结合使用,可有效解决实际中的难题。
1.导言
数十年来,人们一直在开发数值方法来解决多个科学和工程领域的 PDE 问题。然而,这些方法往往需要花费大量精力才能正确建立,计算成本高昂,而且在解决高维问题时表现不佳。鉴于传统方法的这些局限性以及深度学习(DL)在科学和工程领域的突破性应用,科学深度学习(SciDL)近年来得到了深入研究,并取得了显著成就。物理信息神经网络(PINNs)是Raissi等人(2019)最近提出的一种方法,是这种方法的代表,受到了SciDL界的极大关注。它的核心思想是将由 PDE 拟定的物理知识嵌入一个 然后训练深度神经网络(DNN)以生成解决方案。这些步骤可以通过许多现代深度学习软件包提供的自动微分技术(Baydin 等人,2017 年)轻松实现,如 Tensorflow(Abadi 等人,2016 年)、PyTorch(Paszke 等人,2019 年)、Theano(Bergstra 等人,2010 年)和 Matlab 的深度学习工具箱(Paluszek 和 Thomas,2020 年)。
PINN 在不同的工程任务中成功地取得了显著成果,包括计算力学(Li 等人,2021 年)、CFD(Raissi 等人,2020 年)、计算生物医学(Kissas 等人,2020 年)、材料设计(Zhang 和 Gu,2021 年)以及机械故障诊断(Ni 等人,2023 年;Feng 等人,2023 年)。然而,文献中也揭示了 PINN 方法在理论和实践方面的一些弱点。Wang 等人,2023;Feng 等人,2023。
(Rahaman 等人(2022b,2021a)利用神经正切核(NTK)理论描述了虚无 PINN 方法的两个重要限制,包括梯度流不平衡和频谱偏差现象(Rahaman 等人,2019 年)。Krishnapriyan 等人(2021 年)通过实证研究发现,PINN 性能对 PDE 系数值非常敏感。具体来说,PINN 方法可以有效地学习具有共同系数的 PDE 解,但当这些系数值稍有变化时,PINN 方法就可能失败,这被认为是 PINN 训练问题的非条件损失景观造成的。这使得优化过程可能陷入一些不良的局部最优点或鞍点,从而无法提供高质量的预测(Wang 等,2022a)。Xiang 等人(2022 年)、McClenny 和 Braga-Neto (2022 年)等人也报告了梯度病理学,并提出了一些以平衡损失项为重点的处理过程。然而,在 PINN 问题的背景下,这些研究的理论本质仍不明确,而且在训练过程中需要通过自适应策略调整加权系数,这需要外部计算工作。上述局限性清楚地表明,在实际应用传统 PINN 解决各种 PDE 问题时面临巨大挑战。
在处理实际问题时,由于不同组件的物理特性各不相同,或由于设计优化和不确定性量化的要求,PDE 系数和域的大小可能会有很大差异,这就需要考虑各种设置。因此,在将原始 PINN 应用于这些问题时,非三维 PDE 系数导致的梯度失效模式(Krishnapriyan 等人,2021 年)可能会成为一个重大障碍。最近,无维度 PINN(ndPINN)方法已被成功应用于解决多个 CFD 实际应用问题,如血管流动建模(Kissas 等人,2020 年)、流动与传热(Laubscher 和 Rousseau,2022 年)以及气体轴承(Li 等人,2022 年)。然而,ndPINN 并没有彻底解决梯度失效问题,仍然需要对加权系数进行微调,以平衡损失项之间的贡献,从而获得良好的结果(Laubscher 和 Rousseau,2022 年;Li 等人,2022 年)。这就产生了许多需要控制的超参数,从而使ndPINN训练的实现变得复杂和耗时。
本研究的动机来自上述两个限制,包括梯度流的不平衡和传统 PINN 方法对适当估计惩罚系数的要求。特别是,我们深入探讨了 PINN 方法中条件不良损失景观现象的澄清,并随后提出了一种替代模型,以有效解决 PDE 问题,并将重点放在非难情况上。本文的主要贡献如下。
我们从理论和实验两个角度阐明,条件不良损失函数(Kr ishnapriyan 等人,2021 年)的失效不仅源于非琐碎的 PDE 系数,还源于问题大小和所使用的网络结构。具体来说,考虑到具有一些合理假设的特定问题,我们从理论上证明,损失分量的梯度大小随问题系数、域范围和 DNN 宽度呈指数变化。结果表明,当 PDE 系数和/或域的大小不是三维的,且 DNN 结构选择不当时,即使采用无维度程序(即 ndPINN),PINN 训练过程的梯度流也很容易爆炸或消失。这使得即使闭式结果非常简单,训练过程也很难收敛到合适的解。此外,理论结果还表明,大宽度 DNN 可以部分缓解上述障碍,这一点也得到了相关实验的证实。
我们提出了一种新颖的 hnPINN 方法来处理无条件损失景观,从而有效解决现实世界中的 PDE 问题。hnPINN 实现了建议的分层归一化,包括以下两个连续阶段:(1) 通过最小化 PDE 系数和域大小的牵连,使用初级标度器将原始 PDE 转换为两个拟议的非维度化模型之一;以及 (2) 校准次级输出标度器,以灵活控制梯度流的大小,从而提高训练效率。
我们阐明了次级输出标度在分层归一化公式中的参与,以证明其对两个设计的 hnPINN 模型梯度动态的重要性和不同作用。因此,我们发明了一种启发式程序,以经济的方式有效估算次级输出标度的满意值。
我们通过固体力学中的几个一维(1D)和二维(2D)应用,证明了所设计的 hnPINN 与传统 PINN 和 ndPINN 相比具有更优越的性能。值得注意的是,虽然相关问题平滑而简单,但当问题系数设置为非三维数值时,由于其训练过程中的非条件特性,仍给 PINN 方法带来了巨大挑战。实证结果表明,对于所有考虑的问题,hnPINN 模型在求解精度和收敛速度方面完全优于其他两种竞争方法。此外,hnPINN 预测结果也比使用细网格的线性有限元法(FEM)解决方案更加精确。
本文的结构安排如下。第 2 节提供了传统 PINN 和 ndPINN 方法求解 PDE 问题的数学说明。第 3 节阐述了针对条件不佳损失景观现象的理论和实验结果,以及对所设计的 hnPINN 方法的描述,并进行了相应的分析和经验讨论。第 4 节介绍了针对典型一维和二维固体力学问题的参数研究和数值结果,以及所提方法与常规 PINN、ndPINN 和 FEM 的比较。最后,第 5 节讨论了结论和未来可能开展的工作。
本节将简要回顾 PINN 方法。许多科学和工程问题都可以看作是如下形式的拟合 PDEs
D
[
u
(
x
)
,
λ
D
]
=
f
(
x
)
,
x
∈
Ω
D
u
(
x
)
,
λ
D
=
f
(
x
)
,
x
∈
Ω
D[u(x),lambda_(D)]=f(x),xin Omega \mathcal{D}\left[u(\mathbf{x}), \lambda_{D}\right]=f(\mathbf{x}), \mathbf{x} \in \Omega
B
[
u
(
x
)
,
λ
B
]
=
g
(
x
)
,
x
∈
∂
Ω
B
u
(
x
)
,
λ
B
=
g
(
x
)
,
x
∈
∂
Ω
B[u(x),lambda_(B)]=g(x),xin del Omega \mathcal{B}\left[u(\mathbf{x}), \lambda_{B}\right]=g(\mathbf{x}), \mathbf{x} \in \partial \Omega 其中,
D
D
D \mathcal{D} 和
B
B
B \mathcal{B} 分别为治理算子和边界算子,
λ
D
λ
D
lambda_(D) \lambda_{D} 和
λ
B
λ
B
lambda_(B) \lambda_{B} 分别为治理 PDE 和边界 PDE 的问题系数,
f
(
x
)
f
(
x
)
f(x) f(\mathbf{x}) 和
g
(
x
)
g
(
x
)
g(x) g(\mathbf{x}) 分别为相应的强迫函数和边界函数、
u
(
x
)
u
(
x
)
u(x) u(\mathbf{x}) 是 PDE 的潜解,
x
x
x \mathbf{x} 是属于有界域
Ω
⊂
R
n
Ω
⊂
R
n
Omega subR^(n) \Omega \subset \mathbb{R}^{n} 的
n
n
n n 维向量,
∂
Ω
∂
Ω
del Omega \partial \Omega 表示
Ω
Ω
Omega \Omega 的边界。值得注意的是,对于时间相关问题,时间
t
t
t t 被视为
x
,
Ω
x
,
Ω
x,Omega \mathbf{x}, \Omega 的附加分量,而
∂
Ω
∂
Ω
del Omega \partial \Omega 则表示时空域和边界。对于 Raissi 等人(2019 年)提出的传统 PINN 方法,解
u
(
x
)
u
(
x
)
u(x) u(\mathbf{x}) 可直接用神经网络(NN)近似,即
u
(
x
)
≈
u
^
(
x
,
θ
)
u
(
x
)
≈
u
^
(
x
,
θ
)
u(x)~~ hat(u)(x,theta) u(\mathbf{x}) \approx \hat{u}(\mathbf{x}, \boldsymbol{\theta}) 其中,
u
^
u
^
hat(u) \hat{u} 代表 NN 输出,
θ
θ
theta \theta 是通过最小化复合损失函数得到的 NN 参数向量,其值为
L
(
x
,
θ
)
=
L
D
(
x
,
θ
)
+
L
B
(
x
,
θ
)
L
(
x
,
θ
)
=
L
D
(
x
,
θ
)
+
L
B
(
x
,
θ
)
L(x,theta)=L_(D)(x,theta)+L_(B)(x,theta) \mathcal{L}(\mathbf{x}, \theta)=\mathcal{L}_{\mathcal{D}}(\mathbf{x}, \theta)+\mathcal{L}_{\mathcal{B}}(\mathbf{x}, \theta) 其中,
L
D
(
x
,
θ
)
L
D
(
x
,
θ
)
L_(D)(x,theta) \mathcal{L}_{\mathcal{D}}(\mathbf{x}, \boldsymbol{\theta}) 和
L
B
(
x
,
θ
)
L
B
(
x
,
θ
)
L_(B)(x,theta) \mathcal{L}_{\mathcal{B}}(\mathbf{x}, \boldsymbol{\theta}) 分别是 (1) 的均方残差,它们通过问题域
Ω
Ω
Omega \Omega 内部和边界上的随机配准点近似计算如下
L
D
(
x
,
θ
)
=
1
N
D
∑
i
=
1
N
D
[
D
[
u
^
(
x
i
(
D
)
,
θ
)
,
λ
D
]
−
f
(
x
i
(
D
)
)
]
2
L
D
(
x
,
θ
)
=
1
N
D
∑
i
=
1
N
D
D
u
^
x
i
(
D
)
,
θ
,
λ
D
−
f
x
i
(
D
)
2
L_(D)(x,theta)=(1)/(N_(D))sum_(i=1)^(N_(D))[D[( hat(u))(x_(i)^((D)),theta),lambda_(D)]-f(x_(i)^((D)))]^(2) \mathcal{L}_{\mathcal{D}}(\mathbf{x}, \boldsymbol{\theta})=\frac{1}{N_{D}} \sum_{i=1}^{N_{D}}\left[\mathcal{D}\left[\hat{u}\left(\mathbf{x}_{i}^{(D)}, \boldsymbol{\theta}\right), \lambda_{D}\right]-f\left(\mathbf{x}_{i}^{(D)}\right)\right]^{2}
L
B
(
x
,
θ
)
=
1
N
B
∑
i
=
1
N
B
[
B
[
u
^
(
x
i
(
B
)
,
θ
)
,
λ
B
]
−
g
(
x
i
(
B
)
)
]
2
L
B
(
x
,
θ
)
=
1
N
B
∑
i
=
1
N
B
B
u
^
x
i
(
B
)
,
θ
,
λ
B
−
g
x
i
(
B
)
2
L_(B)(x,theta)=(1)/(N_(B))sum_(i=1)^(N_(B))[B[( hat(u))(x_(i)^((B)),theta),lambda_(B)]-g(x_(i)^((B)))]^(2) \mathcal{L}_{\mathcal{B}}(\mathbf{x}, \boldsymbol{\theta})=\frac{1}{N_{B}} \sum_{i=1}^{N_{B}}\left[\mathcal{B}\left[\hat{u}\left(\mathbf{x}_{i}^{(B)}, \boldsymbol{\theta}\right), \lambda_{B}\right]-g\left(\mathbf{x}_{i}^{(B)}\right)\right]^{2} 其中
x
i
(
D
)
x
i
(
D
)
x_(i)^((D)) \mathbf{x}_{i}^{(D)} 和
x
i
(
B
)
x
i
(
B
)
x_(i)^((B)) \mathbf{x}_{i}^{(B)} 分别是由
Ω
Ω
Omega \Omega 内部和边界
∂
Ω
∂
Ω
del Omega \partial \Omega 产生的第
i
i
i i 个拼合点。
N
D
N
D
N_(D) N_{D} 和
N
B
N
B
N_(B) N_{B} 分别是用于内部和边界的拼合点总数。实际上,PINN 训练过程需要进行微分计算,通过自动微分来评估损失函数及其梯度(Baydin 等人,2017 年),从而通过基于梯度的优化算法更新 DNN 参数向量
θ
θ
theta \theta 。
在实际应用中,公式 (1) 中物理量的大小阶通常变化很大,这可能会由于梯度爆炸或消失现象而损害 PINN 训练过程。为了缓解这一限制,最近 Kissas 等人(2020 年)、Laubscher 和 Rousseau(2022 年)、Li 等人(2022 年)、Fathi 等人(2020 年)、Laubscher(2021 年)等人采用了 ndPINN 方法,该方法代替自身求解问题(1)的非维化形式。在数学上,PDE 系统 (1) 可以通过非维度化程序(Langtangen 和 Pedersen,2016 年)转化为具有低维度参数空间的非维度化系统,如下所示
D
[
u
¯
(
x
―
)
,
λ
¯
D
]
=
f
(
x
―
)
,
x
―
∈
Ω
¯
D
u
¯
(
x
¯
)
,
λ
¯
D
=
f
(
x
¯
)
,
x
¯
∈
Ω
¯
D[( bar(u))( bar(x)), bar(lambda)_(D)]=f( bar(x)), bar(x)in bar(Omega) \mathcal{D}\left[\bar{u}(\overline{\mathbf{x}}), \bar{\lambda}_{D}\right]=f(\overline{\mathbf{x}}), \overline{\mathbf{x}} \in \bar{\Omega}
B
[
u
¯
(
x
―
)
,
λ
¯
B
]
=
g
(
x
―
)
,
x
―
∈
∂
Ω
¯
B
u
¯
(
x
¯
)
,
λ
¯
B
=
g
(
x
¯
)
,
x
¯
∈
∂
Ω
¯
B[( bar(u))( bar(x)), bar(lambda)_(B)]=g( bar(x)), bar(x)in del bar(Omega) \mathcal{B}\left[\bar{u}(\overline{\mathbf{x}}), \bar{\lambda}_{B}\right]=g(\overline{\mathbf{x}}), \overline{\mathbf{x}} \in \partial \bar{\Omega} 其中
λ
¯
D
λ
¯
D
bar(lambda)_(D) \bar{\lambda}_{D} 和
λ
¯
B
λ
¯
B
bar(lambda)_(B) \bar{\lambda}_{B} 是无量纲化问题 (5) 的系数,因此
dim
(
λ
¯
D
)
≤
dim
(
λ
D
)
dim
λ
¯
D
≤
dim
λ
D
dim( bar(lambda)_(D)) <= dim(lambda_(D)) \operatorname{dim}\left(\bar{\lambda}_{D}\right) \leq \operatorname{dim}\left(\lambda_{D}\right) 和
dim
(
λ
¯
B
)
≤
dim
(
λ
B
)
,
u
¯
(
x
―
)
dim
λ
¯
B
≤
dim
λ
B
,
u
¯
(
x
¯
)
dim( bar(lambda)_(B)) <= dim(lambda_(B)), bar(u)( bar(x)) \operatorname{dim}\left(\bar{\lambda}_{B}\right) \leq \operatorname{dim}\left(\lambda_{B}\right), \bar{u}(\overline{\mathbf{x}}) 是 PDE 的无量纲化解,
x
―
x
¯
bar(x) \overline{\mathbf{x}} 是对应于无量纲域
Ω
¯
Ω
¯
bar(Omega) \bar{\Omega} 和边界
∂
Ω
¯
∂
Ω
¯
del bar(Omega) \partial \bar{\Omega} 的无量纲变量向量。需要注意的是,
x
―
,
u
¯
,
Ω
¯
x
¯
,
u
¯
,
Ω
¯
bar(x), bar(u), bar(Omega) \overline{\mathbf{x}}, \bar{u}, \bar{\Omega} 和
∂
Ω
¯
∂
Ω
¯
del bar(Omega) \partial \bar{\Omega} 是由一组特征标量
S
S
S \mathbf{S} 通过无量纲算子
P
P
P \mathcal{P} 根据问题旨趣决定的,如下所示
{
x
,
u
,
Ω
,
∂
Ω
}
→
P
(
S
)
{
x
―
,
u
¯
,
Ω
¯
,
∂
Ω
¯
}
{
x
,
u
,
Ω
,
∂
Ω
}
→
P
(
S
)
{
x
¯
,
u
¯
,
Ω
¯
,
∂
Ω
¯
}
{x,u,Omega,del Omega}rarr"P_((S))"{ bar(x), bar(u), bar(Omega),del bar(Omega)} \{\mathbf{x}, u, \Omega, \partial \Omega\} \xrightarrow{\mathcal{P}_{(\mathbf{S})}}\{\overline{\mathbf{x}}, \bar{u}, \bar{\Omega}, \partial \bar{\Omega}\} 我们注意到,由于 PDE 参数的数量和大小较小,且输入和输出在适当范围内缩放,用 PINN 方法求解问题 (5) 通常比原始问题 (1) 更容易。在 ndPINN 模型中,无维度 PDE (5) 采用 PINN 方法求解。设
u
^
n
d
P
I
N
N
u
^
n
d
P
I
N
N
hat(u)_(ndPINN) \hat{u}_{n d P I N N} 为 ndPINN 方法求得的问题 (5) 的最终解。然后,ndPINN 对原始 PDE (1) 的预测值由以下公式推导得出
u
n
d
P
I
N
N
=
P
−
1
(
u
^
n
d
P
I
N
N
,
S
)
u
n
d
P
I
N
N
=
P
−
1
u
^
n
d
P
I
N
N
,
S
u_(ndPINN)=P^(-1)( hat(u)_(ndPINN),S) u_{n d P I N N}=\mathcal{P}^{-1}\left(\hat{u}_{n d P I N N}, \mathbf{S}\right) 其中,
P
−
1
P
−
1
P^(-1) \mathcal{P}^{-1} 是
P
P
P \mathcal{P} 的逆算子。
首先,本节从理论上研究了 PINN 方法在特定边界值问题(BVP)下损失函数条件不佳的重要限制。根据这些理论结果,我们提出了 hnPINN 方法来缓解这一限制,并在实践中显著增强 PINN 的能力。 3.1.常规物理信息神经网络的非条件损失景观--一种理论见解
在本节中,我们将深入分析 PINN 失效的非条件损失景观(Krishnapriyan 等人,2021 年),并证明普通 PINN 的性能不仅取决于 PDE 系数的值,还取决于域大小和网络宽度的变化。在不失一般性的前提下,我们考虑了一个由简单的
k
k
k k 阶 ODE 控制的 BVP,该 ODE 具有常数系数和混合 BC(涉及
k
1
k
1
k_(1) k_{1} 基本 BC 和
k
2
k
2
k_(2) k_{2} 自然 BC),具体如下
a
d
k
u
d
x
k
=
f
,
x
∈
(
0
,
L
)
p
l
u
(
x
l
(
E
)
)
=
g
l
,
l
=
1
,
2
,
…
,
k
1
q
e
d
u
(
x
e
(
N
)
)
d
x
=
h
e
,
e
=
1
,
2
,
…
,
k
2
a
d
k
u
d
x
k
=
f
,
x
∈
(
0
,
L
)
p
l
u
x
l
(
E
)
=
g
l
,
l
=
1
,
2
,
…
,
k
1
q
e
d
u
x
e
(
N
)
d
x
=
h
e
,
e
=
1
,
2
,
…
,
k
2
{:[a(d^(k)u)/(dx^(k))=f","x in(0","L)],[p_(l)u(x_(l)^((E)))=g_(l)","l=1","2","dots","k_(1)],[q_(e)(du(x_(e)^((N))))/(dx)=h_(e)","e=1","2","dots","k_(2)]:} \begin{aligned}
a \frac{d^{k} u}{d x^{k}} & =f, x \in(0, L) \\
p_{l} u\left(x_{l}^{(E)}\right) & =g_{l}, l=1,2, \ldots, k_{1} \\
q_{e} \frac{d u\left(x_{e}^{(N)}\right)}{d x} & =h_{e}, e=1,2, \ldots, k_{2}
\end{aligned}
其中
k
1
+
k
2
=
k
,
a
,
p
l
,
q
e
,
f
,
g
,
h
∈
R
k
1
+
k
2
=
k
,
a
,
p
l
,
q
e
,
f
,
g
,
h
∈
R
k_(1)+k_(2)=k,a,p_(l),q_(e),f,g,h inR k_{1}+k_{2}=k, a, p_{l}, q_{e}, f, g, h \in \mathbb{R} 是常数
∀
l
,
e
∀
l
,
e
AA l,e \forall l, e 。
a
,
p
l
,
q
e
,
f
,
g
,
h
≠
0
,
L
≥
1
a
,
p
l
,
q
e
,
f
,
g
,
h
≠
0
,
L
≥
1
a,p_(l),q_(e),f,g,h!=0,L >= 1 a, p_{l}, q_{e}, f, g, h \neq 0, L \geq 1 和
x
l
(
E
)
,
x
e
(
N
)
∈
[
0
,
L
]
x
l
(
E
)
,
x
e
(
N
)
∈
[
0
,
L
]
x_(l)^((E)),x_(e)^((N))in[0,L] x_{l}^{(E)}, x_{e}^{(N)} \in[0, L] 分别是与第
l
l
l l 次基本 BC 和第
e
e
e e 次自然 BC 相对应的预定坐标。PINN 损失函数定义如下
L
=
L
D
+
L
B
1
+
L
B
2
L
=
L
D
+
L
B
1
+
L
B
2
L=L_(D)+L_(B1)+L_(B2) \mathcal{L}=\mathcal{L}_{D}+\mathcal{L}_{B 1}+\mathcal{L}_{B 2} 其中
L
D
=
1
2
∑
i
=
1
N
D
[
a
d
k
u
^
(
x
i
(
D
)
)
d
x
k
−
f
]
2
,
x
i
(
D
)
∈
(
0
,
L
)
L
D
=
1
2
∑
i
=
1
N
D
a
d
k
u
^
x
i
(
D
)
d
x
k
−
f
2
,
x
i
(
D
)
∈
(
0
,
L
)
L_(D)=(1)/(2)sum_(i=1)^(N_(D))[a(d^(k)( hat(u))(x_(i)^((D))))/(dx^(k))-f]^(2),x_(i)^((D))in(0,L) \mathcal{L}_{\mathcal{D}}=\frac{1}{2} \sum_{i=1}^{N_{D}}\left[a \frac{d^{k} \hat{u}\left(x_{i}^{(D)}\right)}{d x^{k}}-f\right]^{2}, x_{i}^{(D)} \in(0, L)
L
B
1
=
∑
l
=
1
k
1
L
B
1
,
l
=
∑
l
=
1
k
1
1
2
[
p
l
u
^
(
x
l
(
E
)
)
−
g
l
]
2
,
l
=
1
,
2
,
…
,
k
1
L
B
1
=
∑
l
=
1
k
1
L
B
1
,
l
=
∑
l
=
1
k
1
1
2
p
l
u
^
x
l
(
E
)
−
g
l
2
,
l
=
1
,
2
,
…
,
k
1
L_(B1)=sum_(l=1)^(k_(1))L_(B1,l)=sum_(l=1)^(k_(1))(1)/(2)[p_(l)( hat(u))(x_(l)^((E)))-g_(l)]^(2),l=1,2,dots,k_(1) \mathcal{L}_{B 1}=\sum_{l=1}^{k_{1}} \mathcal{L}_{B 1, l}=\sum_{l=1}^{k_{1}} \frac{1}{2}\left[p_{l} \hat{u}\left(x_{l}^{(E)}\right)-g_{l}\right]^{2}, l=1,2, \ldots, k_{1}
L
B
2
=
∑
e
=
1
k
2
L
B
2
,
e
=
∑
e
=
1
k
2
1
2
[
q
e
d
u
^
(
x
e
(
N
)
)
d
x
−
h
e
]
2
,
e
=
1
,
2
,
…
,
k
2
L
B
2
=
∑
e
=
1
k
2
L
B
2
,
e
=
∑
e
=
1
k
2
1
2
q
e
d
u
^
x
e
(
N
)
d
x
−
h
e
2
,
e
=
1
,
2
,
…
,
k
2
L_(B2)=sum_(e=1)^(k_(2))L_(B2,e)=sum_(e=1)^(k_(2))(1)/(2)[q_(e)(d( hat(u))(x_(e)^((N))))/(dx)-h_(e)]^(2),e=1,2,dots,k_(2) \mathcal{L}_{B 2}=\sum_{e=1}^{k_{2}} \mathcal{L}_{B 2, e}=\sum_{e=1}^{k_{2}} \frac{1}{2}\left[q_{e} \frac{d \hat{u}\left(x_{e}^{(N)}\right)}{d x}-h_{e}\right]^{2}, e=1,2, \ldots, k_{2} 其中,
x
i
(
D
)
x
i
(
D
)
x_(i)^((D)) x_{i}^{(D)} 是内域中的第
i
i
i i 个定位点。
3.1.1.神经网络配置
为了解决问题 (8),我们使用具有一个输入和一个输出特征的浅层 NN,其形式如下
u
^
(
x
,
w
,
v
,
b
)
=
1
N
∑
i
=
1
N
v
i
σ
(
w
i
x
+
b
i
)
+
b
0
u
^
(
x
,
w
,
v
,
b
)
=
1
N
∑
i
=
1
N
v
i
σ
w
i
x
+
b
i
+
b
0
hat(u)(x,w,v,b)=(1)/(sqrtN)sum_(i=1)^(N)v_(i)sigma(w_(i)x+b_(i))+b_(0) \hat{u}(x, \mathbf{w}, \mathbf{v}, \mathbf{b})=\frac{1}{\sqrt{N}} \sum_{i=1}^{N} v_{i} \sigma\left(w_{i} x+b_{i}\right)+b_{0} 其中,
x
∈
R
x
∈
R
x inR x \in \mathbb{R} 是网络输入,
N
N
N N 是隐藏层的节点数,
w
,
v
∈
R
N
w
,
v
∈
R
N
w,vinR^(N) \mathbf{w}, \mathbf{v} \in \mathbb{R}^{N} 是第一层和输出层的权重向量,
b
∈
R
N
b
∈
R
N
binR^(N) \mathbf{b} \in \mathbb{R}^{N} 是隐藏层的偏置向量,
w
i
,
v
i
,
b
i
w
i
,
v
i
,
b
i
w_(i),v_(i),b_(i) w_{i}, v_{i}, b_{i} 分别是
w
,
v
w
,
v
w,v \mathbf{w}, \mathbf{v} 的第
i
i
i i 个分量,
b
,
b
0
∈
R
b
,
b
0
∈
R
b,b_(0)inR \mathbf{b}, b_{0} \in \mathbb{R} 是网络输出的偏置值。
σ
:
R
→
R
σ
:
R
→
R
sigma:RrarrR \sigma: \mathbb{R} \rightarrow \mathbb{R} 是一个非线性激活函数,其中双曲正切(tanh)函数在 PINN 方法中应用最为广泛。值得注意的是,网络输出
u
^
u
^
hat(u) \hat{u} 的缩放系数为
1
N
1
N
(1)/(sqrtN) \frac{1}{\sqrt{N}} ,以便在 NN 宽度增加到无穷大时实现 NN 的一致渐近收敛(Jacot 等,2018;Wang 等,2022b)。权重和偏置向量由高斯分布
N
(
0
,
1
)
N
(
0
,
1
)
N(0,1) \mathcal{N}(0,1) 初始化。所述 NN 采用全批次梯度下降(GD)训练,损失函数如式 (9)-(10) 所述。
让我们考虑一个训练过程,通过使用无限小的学习率来优化公式 (9) 中的损失函数
L
L
L \mathcal{L} 。相应的梯度演化变得时间连续,梯度流如下所示
d
θ
(
t
)
d
t
=
∇
θ
(
t
)
L
=
∇
θ
(
t
)
L
D
+
∑
l
=
1
k
1
∇
θ
(
t
)
L
B
1
,
l
+
∑
e
=
1
k
2
∇
θ
(
t
)
L
B
2
,
e
,
t
∈
[
0
,
T
]
d
θ
(
t
)
d
t
=
∇
θ
(
t
)
L
=
∇
θ
(
t
)
L
D
+
∑
l
=
1
k
1
∇
θ
(
t
)
L
B
1
,
l
+
∑
e
=
1
k
2
∇
θ
(
t
)
L
B
2
,
e
,
t
∈
[
0
,
T
]
(d theta(t))/(dt)=grad_(theta(t))L=grad_(theta(t))L_(D)+sum_(l=1)^(k_(1))grad_(theta(t))L_(B1,l)+sum_(e=1)^(k_(2))grad_(theta(t))L_(B2,e),t in[0,T] \frac{d \boldsymbol{\theta}(t)}{d t}=\nabla_{\boldsymbol{\theta}(t)} \mathcal{L}=\nabla_{\boldsymbol{\theta}(t)} \mathcal{L}_{\mathcal{D}}+\sum_{l=1}^{k_{1}} \nabla_{\boldsymbol{\theta}(t)} \mathcal{L}_{B 1, l}+\sum_{e=1}^{k_{2}} \nabla_{\boldsymbol{\theta}(t)} \mathcal{L}_{B 2, e}, t \in[0, T]
其中
T
T
T T 为最长训练时间。由于训练过程是一个有限的过程,且学习率非常小,因此 首先提出了关于网络参数边界的假设 3.1。如备注 3.1 所述,基于对权重矩阵在训练过程中动态的一些观察,在涉及大宽度 NN 时,这一假设在经验上是合理的。第二个假设 3.2 并不严格,因为 PINN 方法中使用的激活函数几乎都在特定范围内完全受限,如 tanh、sigmoid 和正弦函数。
假设 3.1.在训练过程中,NN 的所有网络参数都以常数
W
>
0
W
>
0
W > 0 W>0 为界:
sup
‖
θ
(
t
)
‖
∞
=
W
sup
‖
θ
(
t
)
‖
∞
=
W
s u p||theta(t)||_(oo)=W \sup \|\boldsymbol{\theta}(t)\|_{\infty}=W
t
∈
[
0
,
T
]
t
∈
[
0
,
T
]
t in[0,T] t \in[0, T] 其中,
θ
(
t
)
=
[
w
(
t
)
,
v
(
t
)
,
b
(
t
)
]
,
w
(
t
)
,
v
(
t
)
θ
(
t
)
=
[
w
(
t
)
,
v
(
t
)
,
b
(
t
)
]
,
w
(
t
)
,
v
(
t
)
theta(t)=[w(t),v(t),b(t)],w(t),v(t) \boldsymbol{\theta}(t)=[\mathbf{w}(t), \mathbf{v}(t), \mathbf{b}(t)], \mathbf{w}(t), \mathbf{v}(t) 和
b
(
t
)
b
(
t
)
b(t) \mathbf{b}(t) 分别是位于
t
t
t t 处的 NN 的权重向量和偏置向量。
备注 3.1.直观地说,考虑到足够宽的 NN,权重分量的任何微小变化对网络输出的影响都可以忽略不计。此外,一些关键实验观察到,大型 NN 的权重矩阵在训练过程中仅有轻微变化(Li 和 Liang,2018;Du 等人,2019;Wang 等人,2022b)。因此,假设 3.1 是合理的。
假设 3.2.假设激活函数
σ
(
ξ
)
:
R
→
R
σ
(
ξ
)
:
R
→
R
sigma(xi):RrarrR \sigma(\xi): \mathbb{R} \rightarrow \mathbb{R} 属于可微分类
C
k
+
1
,
k
∈
Z
+
C
k
+
1
,
k
∈
Z
+
C^(k+1),k inZ^(+) C^{k+1}, k \in \mathbb{Z}^{+} ,且
σ
(
j
)
(
ξ
)
σ
(
j
)
(
ξ
)
sigma^((j))(xi) \sigma^{(j)}(\xi) 表示
σ
σ
sigma \sigma 相对于
ξ
,
j
∈
Z
+
,
j
≤
k
+
1
ξ
,
j
∈
Z
+
,
j
≤
k
+
1
xi,j inZ^(+),j <= k+1 \xi, j \in \mathbb{Z}^{+}, j \leq k+1 的三阶导数
j
j
j j 。对于任意的
ξ
ξ
xi \xi 和
j
j
j j ,
σ
(
j
)
(
ξ
)
σ
(
j
)
(
ξ
)
sigma^((j))(xi) \sigma^{(j)}(\xi) 总是以常数
C
>
0
C
>
0
C > 0 C>0 为界:
|
σ
(
j
)
(
ξ
)
|
≤
C
σ
(
j
)
(
ξ
)
≤
C
|sigma^((j))(xi)| <= C \left|\sigma^{(j)}(\xi)\right| \leq C 备注 3.2.假设 3.2 完全符合 PINN 中广泛使用的几种激活函数,如 tanh、sigmoid、正弦等。具体来说,这些函数都是无限可微的,其任意阶的导数总是以特定的有限值为界。
本研究的理论结论如下,其中定理 3.2 是主要结果,推论 3.2.1 是定理 3.2 关于无穷宽 NN 的结果。
定理 3.1.在假设 3.1-3.2
L
,
m
,
n
,
w
i
,
v
i
,
b
i
∈
R
L
,
m
,
n
,
w
i
,
v
i
,
b
i
∈
R
L,m,n,w_(i),v_(i),b_(i)inR L, m, n, w_{i}, v_{i}, b_{i} \in \mathbb{R} 、
L
,
m
,
n
>
0
L
,
m
,
n
>
0
L,m,n > 0 L, m, n>0 条件下,在
∀
i
=
1
,
…
,
N
,
∀
j
=
1
,
…
,
k
∀
i
=
1
,
…
,
N
,
∀
j
=
1
,
…
,
k
AA i=1,dots,N,AA j=1,dots,k \forall i=1, \ldots, N, \forall j=1, \ldots, k 条件下,下面所有陈述都成立:
|
∫
0
L
[
σ
(
j
)
(
w
i
x
+
b
i
)
]
m
x
n
d
x
|
≤
C
m
L
n
+
1
n
+
1
|
∫
0
L
[
∑
i
=
1
N
v
i
w
i
σ
(
j
)
(
w
i
x
+
b
)
]
m
d
x
|
≤
W
m
(
j
+
1
)
N
m
C
m
L
∫
0
L
σ
(
j
)
w
i
x
+
b
i
m
x
n
d
x
≤
C
m
L
n
+
1
n
+
1
∫
0
L
∑
i
=
1
N
v
i
w
i
σ
(
j
)
w
i
x
+
b
m
d
x
≤
W
m
(
j
+
1
)
N
m
C
m
L
{:[|int_(0)^(L)[sigma^((j))(w_(i)x+b_(i))]^(m)x^(n)dx| <= (C^(m)L^(n+1))/(n+1)],[|int_(0)^(L)[sum_(i=1)^(N)v_(i)w_(i)sigma^((j))(w_(i)x+b)]^(m)dx| <= W^(m(j+1))N^(m)C^(m)L]:} \begin{aligned}
\left|\int_{0}^{L}\left[\sigma^{(j)}\left(w_{i} x+b_{i}\right)\right]^{m} x^{n} d x\right| & \leq \frac{C^{m} L^{n+1}}{n+1} \\
\left|\int_{0}^{L}\left[\sum_{i=1}^{N} v_{i} w_{i} \sigma^{(j)}\left(w_{i} x+b\right)\right]^{m} d x\right| & \leq W^{m(j+1)} N^{m} C^{m} L
\end{aligned}
证明。参见附录 A.1。 定理 3.2.考虑通过第 3.1.1 节所述的浅层 NN,使用公式 (9)-(10) 中的损失函数,用 PINN 方法求解问题 (8)。在假设 3.1-3.2 条件下,训练过程中的损失梯度分量的边界为
sup
t
∈
[
0
,
T
]
‖
∇
L
D
‖
∞
≤
O
(
a
2
L
k
)
+
O
(
a
2
L
2
)
+
O
(
1
N
L
k
|
a
f
|
)
+
O
(
1
N
L
2
|
a
f
|
)
sup
t
∈
[
0
,
T
]
‖
∇
L
B
1
,
l
‖
∞
≤
O
(
p
l
2
L
)
+
O
(
1
N
L
|
p
l
g
l
|
)
,
l
=
1
,
2
,
…
,
k
1
sup
t
∈
[
0
,
T
]
‖
∇
L
B
2
,
e
‖
∞
≤
O
(
q
e
2
L
)
+
O
(
q
e
2
)
+
O
(
1
N
L
|
q
e
h
e
|
)
+
O
(
1
N
|
q
e
h
e
|
)
,
e
=
1
,
2
,
…
,
k
2
sup
t
∈
[
0
,
T
]
∇
L
D
∞
≤
O
a
2
L
k
+
O
a
2
L
2
+
O
1
N
L
k
|
a
f
|
+
O
1
N
L
2
|
a
f
|
sup
t
∈
[
0
,
T
]
∇
L
B
1
,
l
∞
≤
O
p
l
2
L
+
O
1
N
L
p
l
g
l
,
l
=
1
,
2
,
…
,
k
1
sup
t
∈
[
0
,
T
]
∇
L
B
2
,
e
∞
≤
O
q
e
2
L
+
O
q
e
2
+
O
1
N
L
q
e
h
e
+
O
1
N
q
e
h
e
,
e
=
1
,
2
,
…
,
k
2
{:[s u p_(t in[0,T])||gradL_(D)||_(oo) <= O(a^(2)Lk)+O(a^(2)L^(2))+O((1)/(sqrtN)Lk|af|)],[+O((1)/(sqrtN)L^(2)|af|)],[s u p_(t in[0,T])||gradL_(B1,l)||_(oo) <= O(p_(l)^(2)L)+O((1)/(sqrtN)L|p_(l)g_(l)|)","l=1","2","dots","k_(1)],[s u p_(t in[0,T])||gradL_(B2,e)||_(oo) <= O(q_(e)^(2)L)+O(q_(e)^(2))+O((1)/(sqrtN)L|q_(e)h_(e)|)],[+O((1)/(sqrtN)|q_(e)h_(e)|)","e=1","2","dots","k_(2)]:} \begin{aligned}
\sup _{t \in[0, T]}\left\|\nabla \mathcal{L}_{\mathcal{D}}\right\|_{\infty} \leq & \mathcal{O}\left(a^{2} L k\right)+\mathcal{O}\left(a^{2} L^{2}\right)+\mathcal{O}\left(\frac{1}{\sqrt{N}} L k|a f|\right) \\
& +\mathcal{O}\left(\frac{1}{\sqrt{N}} L^{2}|a f|\right) \\
\sup _{t \in[0, T]}\left\|\nabla \mathcal{L}_{\mathcal{B} 1, l}\right\|_{\infty} \leq & \mathcal{O}\left(p_{l}^{2} L\right)+\mathcal{O}\left(\frac{1}{\sqrt{N}} L\left|p_{l} g_{l}\right|\right), l=1,2, \ldots, k_{1} \\
\sup _{t \in[0, T]}\left\|\nabla \mathcal{L}_{\mathcal{B} 2, e}\right\|_{\infty} \leq & \mathcal{O}\left(q_{e}^{2} L\right)+\mathcal{O}\left(q_{e}^{2}\right)+\mathcal{O}\left(\frac{1}{\sqrt{N}} L\left|q_{e} h_{e}\right|\right) \\
& +\mathcal{O}\left(\frac{1}{\sqrt{N}}\left|q_{e} h_{e}\right|\right), e=1,2, \ldots, k_{2}
\end{aligned}
证明。参见附录 A.2。 备注 3.3.当采用浅层 NN 时,公式 (9)-(10) 中的损失梯度分量会因问题系数、域大小、微分阶数和 NN 宽度的不同而受到不同大小阶数的约束。这就降低了 PINN 的训练性能,因为损失项需要不同的学习率。
推论 3.2.1.在假设 3.1-3.2 条件下,用浅层无穷宽 NN 求解问题 (8) 的损失梯度分量的边界为
lim
N
→
∞
sup
t
∈
[
0
,
T
]
‖
∇
L
D
‖
∞
≤
O
(
a
2
L
k
)
+
O
(
a
2
L
2
)
lim
N
→
∞
sup
t
∈
[
0
,
T
]
‖
∇
L
B
1
,
l
‖
∞
≤
O
(
p
l
2
L
)
,
l
=
1
,
2
,
…
,
k
1
lim
N
→
∞
sup
t
∈
[
0
,
T
]
‖
∇
L
B
2
,
e
‖
∞
≤
O
(
q
e
2
L
)
+
O
(
q
e
2
)
,
e
=
1
,
2
,
…
,
k
2
lim
N
→
∞
sup
t
∈
[
0
,
T
]
∇
L
D
∞
≤
O
a
2
L
k
+
O
a
2
L
2
lim
N
→
∞
sup
t
∈
[
0
,
T
]
∇
L
B
1
,
l
∞
≤
O
p
l
2
L
,
l
=
1
,
2
,
…
,
k
1
lim
N
→
∞
sup
t
∈
[
0
,
T
]
∇
L
B
2
,
e
∞
≤
O
q
e
2
L
+
O
q
e
2
,
e
=
1
,
2
,
…
,
k
2
{:[lim_(N rarr oo)s u p_(t in[0,T])||gradL_(D)||_(oo) <= O(a^(2)Lk)+O(a^(2)L^(2))],[lim_(N rarr oo)s u p_(t in[0,T])||gradL_(B1,l)||_(oo) <= O(p_(l)^(2)L)","l=1","2","dots","k_(1)],[lim_(N rarr oo)s u p_(t in[0,T])||gradL_(B2,e)||_(oo) <= O(q_(e)^(2)L)+O(q_(e)^(2))","e=1","2","dots","k_(2)]:} \begin{aligned}
& \lim _{N \rightarrow \infty} \sup _{t \in[0, T]}\left\|\nabla \mathcal{L}_{\mathcal{D}}\right\|_{\infty} \leq \mathcal{O}\left(a^{2} L k\right)+\mathcal{O}\left(a^{2} L^{2}\right) \\
& \lim _{N \rightarrow \infty} \sup _{t \in[0, T]}\left\|\nabla \mathcal{L}_{\mathcal{B} 1, l}\right\|_{\infty} \leq \mathcal{O}\left(p_{l}^{2} L\right), l=1,2, \ldots, k_{1} \\
& \lim _{N \rightarrow \infty} \sup _{t \in[0, T]}\left\|\nabla \mathcal{L}_{B 2, e}\right\|_{\infty} \leq \mathcal{O}\left(q_{e}^{2} L\right)+\mathcal{O}\left(q_{e}^{2}\right), e=1,2, \ldots, k_{2}
\end{aligned}
证明。由于当
N
→
∞
N
→
∞
N rarr oo N \rightarrow \infty 时右边项的极限(其中
O
(
1
N
L
k
|
a
f
|
)
,
O
(
1
N
L
2
|
a
f
|
)
,
O
(
1
N
L
|
p
l
g
l
|
)
,
O
(
1
N
L
|
q
e
h
e
|
)
O
1
N
L
k
|
a
f
|
,
O
1
N
L
2
|
a
f
|
,
O
1
N
L
p
l
g
l
,
O
1
N
L
q
e
h
e
O((1)/(sqrtN)Lk|af|),O((1)/(sqrtN)L^(2)|af|),O((1)/(sqrtN)L|p_(l)g_(l)|),O((1)/(sqrtN)L|q_(e)h_(e)|) \mathcal{O}\left(\frac{1}{\sqrt{N}} L k|a f|\right), \mathcal{O}\left(\frac{1}{\sqrt{N}} L^{2}|a f|\right), \mathcal{O}\left(\frac{1}{\sqrt{N}} L\left|p_{l} g_{l}\right|\right), \mathcal{O}\left(\frac{1}{\sqrt{N}} L\left|q_{e} h_{e}\right|\right) 和
O
(
1
N
|
q
e
h
e
|
)
O
1
N
q
e
h
e
O((1)/(sqrtN)|q_(e)h_(e)|) \mathcal{O}\left(\frac{1}{\sqrt{N}}\left|q_{e} h_{e}\right|\right) 的量随之消失),
∀
l
,
e
∀
l
,
e
AA l,e \forall l, e 很容易从定理 3.2 中提取出推论 3.2.1。
备注 3.4.当采用无限宽 NN 时,公式 (9)-(10) 中损失分量的无限梯度准则与
f
,
g
l
f
,
g
l
f,g_(l) f, g_{l} 和
h
e
,
∀
l
,
e
h
e
,
∀
l
,
e
h_(e),AA l,e h_{e}, \forall l, e 无关。换句话说,当 NN 宽度增大时,
f
,
g
l
f
,
g
l
f,g_(l) f, g_{l} 和
h
e
h
e
h_(e) h_{e} 对 PINN 训练过程中梯度流的影响会逐渐减小。
本节将介绍拟议的 hnPINN 的特点,以减轻第 3.1 节中介绍的条件不佳的损失景观所造成的困难。hnPINN 的核心思想是一个分层过程,具体如下:(1) 将原始 PDE 问题转化为非维度形式;(2) 通过额外的标度器校准输出大小,以稳定梯度流并提高训练效率。直观但不失一般性的是,下面这个具有常数系数和混合 BC 的一维一般 BVP 可用于描述 hnPINN 的实施步骤,具体如下
∑
i
=
1
k
a
i
d
i
u
d
x
i
+
a
0
u
=
f
(
x
)
,
x
∈
(
0
,
L
)
p
l
u
(
x
l
(
E
)
)
=
g
l
(
x
l
(
E
)
)
,
l
=
1
,
2
,
…
,
k
1
q
e
d
u
(
x
e
(
N
)
)
d
x
=
h
e
(
x
e
(
N
)
)
,
e
=
1
,
2
,
…
,
k
2
∑
i
=
1
k
a
i
d
i
u
d
x
i
+
a
0
u
=
f
(
x
)
,
x
∈
(
0
,
L
)
p
l
u
x
l
(
E
)
=
g
l
x
l
(
E
)
,
l
=
1
,
2
,
…
,
k
1
q
e
d
u
x
e
(
N
)
d
x
=
h
e
x
e
(
N
)
,
e
=
1
,
2
,
…
,
k
2
{:[sum_(i=1)^(k)a_(i)(d^(i)u)/(dx^(i))+a_(0)u=f(x)","x in(0","L)],[p_(l)u(x_(l)^((E)))=g_(l)(x_(l)^((E)))","l=1","2","dots","k_(1)],[q_(e)(du(x_(e)^((N))))/(dx)=h_(e)(x_(e)^((N)))","e=1","2","dots","k_(2)]:} \begin{aligned}
\sum_{i=1}^{k} a_{i} \frac{d^{i} u}{d x^{i}}+a_{0} u & =f(x), x \in(0, L) \\
p_{l} u\left(x_{l}^{(E)}\right) & =g_{l}\left(x_{l}^{(E)}\right), l=1,2, \ldots, k_{1} \\
q_{e} \frac{d u\left(x_{e}^{(N)}\right)}{d x} & =h_{e}\left(x_{e}^{(N)}\right), e=1,2, \ldots, k_{2}
\end{aligned}
其中
a
i
,
a
0
,
p
l
,
q
e
∈
R
a
i
,
a
0
,
p
l
,
q
e
∈
R
a_(i),a_(0),p_(l),q_(e)inR a_{i}, a_{0}, p_{l}, q_{e} \in \mathbb{R} 为常数,
f
(
x
)
,
g
l
(
x
)
f
(
x
)
,
g
l
(
x
)
f(x),g_(l)(x) f(x), g_{l}(x) 和
h
e
(
x
)
h
e
(
x
)
h_(e)(x) h_{e}(x) 为强制函数,
i
=
1
,
2
,
…
,
k
i
=
1
,
2
,
…
,
k
i=1,2,dots,k i=1,2, \ldots, k 为强制函数。可以看出,上述 BVP 在固体力学中非常流行。针对该问题的 hnPINN 方法的技术流程如下。
步骤 1:确定输入和输出变量 不难发现,对于问题 (18),hnPINN 模型需要一个输入变量
x
x
x x 和一个输出变量
u
u
u u 。
步骤 2:确定归一化输入和输出变量 对于问题 (18),通过分层标度器
X
0
X
0
X_(0) X_{0} 、
U
0
U
0
U_(0) U_{0} 和
α
u
α
u
alpha_(u) \alpha_{u} 建立相对于相应变量的归一化变量
x
¯
x
¯
bar(x) \bar{x} 和
u
¯
u
¯
bar(u) \bar{u} 如下
x
¯
=
x
X
0
,
x
¯
l
(
E
)
=
x
l
(
E
)
X
0
,
x
¯
e
(
N
)
=
x
e
(
N
)
X
0
x
¯
=
x
X
0
,
x
¯
l
(
E
)
=
x
l
(
E
)
X
0
,
x
¯
e
(
N
)
=
x
e
(
N
)
X
0
bar(x)=(x)/(X_(0)), bar(x)_(l)^((E))=(x_(l)^((E)))/(X_(0)), bar(x)_(e)^((N))=(x_(e)^((N)))/(X_(0)) \bar{x}=\frac{x}{X_{0}}, \bar{x}_{l}^{(E)}=\frac{x_{l}^{(E)}}{X_{0}}, \bar{x}_{e}^{(N)}=\frac{x_{e}^{(N)}}{X_{0}}
u
¯
=
u
α
u
U
0
u
¯
=
u
α
u
U
0
bar(u)=(u)/(alpha_(u)U_(0)) \bar{u}=\frac{u}{\alpha_{u} U_{0}} 其中,
X
0
X
0
X_(0) X_{0} 和
U
0
U
0
U_(0) U_{0} 分别是输入和输出的一级缩放器,
α
u
α
u
alpha_(u) \alpha_{u} 是输出的二级缩放器。
步骤 3:通过归一化变量推导原始 PDE 系统 在这一阶段,将步骤 2 中得到的归一化变量插入原始 PDE 问题中,得到相应的 PDE 系统。具体来说,
u
u
u u 的三阶导数
i
i
i i 与
u
¯
u
¯
bar(u) \bar{u} 之间的关系通过链式规则提取如下
d
i
u
d
x
i
=
U
0
X
0
i
α
u
d
i
u
¯
d
x
¯
i
d
i
u
d
x
i
=
U
0
X
0
i
α
u
d
i
u
¯
d
x
¯
i
(d^(i)u)/(dx^(i))=(U_(0))/(X_(0)^(i))alpha_(u)(d^(i)( bar(u)))/(d bar(x)^(i)) \frac{d^{i} u}{d x^{i}}=\frac{U_{0}}{X_{0}^{i}} \alpha_{u} \frac{d^{i} \bar{u}}{d \bar{x}^{i}} 根据公式 (20),PDE 问题 (18) 可改写为
∑
i
=
1
k
a
i
U
0
X
0
i
α
u
d
i
u
¯
d
x
¯
i
+
a
0
U
0
α
u
u
¯
=
f
(
X
0
x
¯
)
,
x
¯
∈
[
0
,
L
X
0
]
p
l
U
0
α
u
u
¯
(
x
¯
l
(
E
)
)
=
g
l
(
X
0
x
¯
l
(
E
)
)
,
l
=
1
,
2
,
…
,
k
1
q
e
U
0
X
0
α
u
d
u
¯
(
x
¯
e
(
N
)
)
d
x
¯
=
h
e
(
X
0
x
¯
e
(
N
)
)
,
e
=
1
,
2
,
…
,
k
2
∑
i
=
1
k
a
i
U
0
X
0
i
α
u
d
i
u
¯
d
x
¯
i
+
a
0
U
0
α
u
u
¯
=
f
X
0
x
¯
,
x
¯
∈
0
,
L
X
0
p
l
U
0
α
u
u
¯
x
¯
l
(
E
)
=
g
l
X
0
x
¯
l
(
E
)
,
l
=
1
,
2
,
…
,
k
1
q
e
U
0
X
0
α
u
d
u
¯
x
¯
e
(
N
)
d
x
¯
=
h
e
X
0
x
¯
e
(
N
)
,
e
=
1
,
2
,
…
,
k
2
{:[sum_(i=1)^(k)a_(i)(U_(0))/(X_(0)^(i))alpha_(u)(d^(i)( bar(u)))/(d bar(x)^(i))+a_(0)U_(0)alpha_(u) bar(u)=f(X_(0)( bar(x)))"," bar(x)in[0,(L)/(X_(0))]],[p_(l)U_(0)alpha_(u) bar(u)( bar(x)_(l)^((E)))=g_(l)(X_(0) bar(x)_(l)^((E)))","l=1","2","dots","k_(1)],[q_(e)(U_(0))/(X_(0))alpha_(u)(d( bar(u))( bar(x)_(e)^((N))))/(d( bar(x)))=h_(e)(X_(0) bar(x)_(e)^((N)))","e=1","2","dots","k_(2)]:} \begin{aligned}
\sum_{i=1}^{k} a_{i} \frac{U_{0}}{X_{0}^{i}} \alpha_{u} \frac{d^{i} \bar{u}}{d \bar{x}^{i}}+a_{0} U_{0} \alpha_{u} \bar{u} & =f\left(X_{0} \bar{x}\right), \bar{x} \in\left[0, \frac{L}{X_{0}}\right] \\
p_{l} U_{0} \alpha_{u} \bar{u}\left(\bar{x}_{l}^{(E)}\right) & =g_{l}\left(X_{0} \bar{x}_{l}^{(E)}\right), l=1,2, \ldots, k_{1} \\
q_{e} \frac{U_{0}}{X_{0}} \alpha_{u} \frac{d \bar{u}\left(\bar{x}_{e}^{(N)}\right)}{d \bar{x}} & =h_{e}\left(X_{0} \bar{x}_{e}^{(N)}\right), e=1,2, \ldots, k_{2}
\end{aligned}
步骤 4:通过主标度和次标度对 PDE 系统进行分层归一化 选择标度
X
0
,
U
0
X
0
,
U
0
X_(0),U_(0) X_{0}, U_{0} 和
α
u
α
u
alpha_(u) \alpha_{u} 以获得 PDE (21) 的归一化形式,是通过一个分层的两阶段过程决定的。首先,选择主标度
X
0
X
0
X_(0) X_{0} 和
U
0
U
0
U_(0) U_{0} 将问题 (21) 转化为两个拟议的非尺寸化版本之一。随后,根据第一阶段确定的无量纲形式,决定次级标度
α
u
α
u
alpha_(u) \alpha_{u} 。
在第一阶段,为了获得 (21) 的无量纲化,只需在
X
0
=
L
X
0
=
L
X_(0)=L X_{0}=L 处设置主标度,将问题的域大小缩放为 1,并在
U
0
=
L
k
a
k
U
0
=
L
k
a
k
U_(0)=(L^(k))/(a_(k)) U_{0}=\frac{L^{k}}{a_{k}} 处消除
k
k
k k 三阶导数前面的系数。因此,PDE 系统 (21) 可以转化为以下两种无量纲形式之一
d
k
u
¯
d
x
¯
k
+
∑
i
=
1
k
−
1
a
i
L
k
−
i
a
k
d
i
u
¯
d
x
¯
i
+
a
0
L
k
a
k
u
¯
=
f
(
L
x
¯
)
α
u
,
x
¯
∈
(
0
,
1
)
u
¯
(
x
¯
l
(
E
)
)
=
g
l
(
L
x
¯
l
(
E
)
)
a
k
α
u
p
l
L
k
,
l
=
1
,
2
,
…
,
k
1
d
u
¯
(
x
¯
e
(
N
)
)
d
x
¯
=
h
e
(
L
x
¯
e
(
N
)
)
a
k
α
u
q
e
L
k
−
1
,
e
=
1
,
2
,
…
,
k
2
d
k
u
¯
d
x
¯
k
+
∑
i
=
1
k
−
1
a
i
L
k
−
i
a
k
d
i
u
¯
d
x
¯
i
+
a
0
L
k
a
k
u
¯
=
f
(
L
x
¯
)
α
u
,
x
¯
∈
(
0
,
1
)
u
¯
x
¯
l
(
E
)
=
g
l
L
x
¯
l
(
E
)
a
k
α
u
p
l
L
k
,
l
=
1
,
2
,
…
,
k
1
d
u
¯
x
¯
e
(
N
)
d
x
¯
=
h
e
L
x
¯
e
(
N
)
a
k
α
u
q
e
L
k
−
1
,
e
=
1
,
2
,
…
,
k
2
{:[(d^(k)( bar(u)))/(d bar(x)^(k))+sum_(i=1)^(k-1)a_(i)(L^(k-i))/(a_(k))(d^(i)( bar(u)))/(d bar(x)^(i))+a_(0)(L^(k))/(a_(k)) bar(u)=(f(L( bar(x))))/(alpha_(u))"," bar(x)in(0","1)],[ bar(u)( bar(x)_(l)^((E)))=(g_(l)(L bar(x)_(l)^((E)))a_(k))/(alpha_(u)p_(l)L^(k))","l=1","2","dots","k_(1)],[(d( bar(u))( bar(x)_(e)^((N))))/(d( bar(x)))=(h_(e)(L bar(x)_(e)^((N)))a_(k))/(alpha_(u)q_(e)L^(k-1))","e=1","2","dots","k_(2)]:} \begin{aligned}
\frac{d^{k} \bar{u}}{d \bar{x}^{k}}+\sum_{i=1}^{k-1} a_{i} \frac{L^{k-i}}{a_{k}} \frac{d^{i} \bar{u}}{d \bar{x}^{i}}+a_{0} \frac{L^{k}}{a_{k}} \bar{u} & =\frac{f(L \bar{x})}{\alpha_{u}}, \bar{x} \in(0,1) \\
\bar{u}\left(\bar{x}_{l}^{(E)}\right) & =\frac{g_{l}\left(L \bar{x}_{l}^{(E)}\right) a_{k}}{\alpha_{u} p_{l} L^{k}}, l=1,2, \ldots, k_{1} \\
\frac{d \bar{u}\left(\bar{x}_{e}^{(N)}\right)}{d \bar{x}} & =\frac{h_{e}\left(L \bar{x}_{e}^{(N)}\right) a_{k}}{\alpha_{u} q_{e} L^{k-1}}, e=1,2, \ldots, k_{2}
\end{aligned}
α
u
d
k
u
¯
d
x
¯
k
+
α
u
∑
i
=
1
k
−
1
a
i
L
k
−
i
a
k
d
i
u
¯
d
x
¯
i
+
α
u
a
0
L
k
a
k
u
¯
=
f
(
L
x
¯
)
,
x
¯
∈
(
0
,
1
)
α
u
u
¯
(
x
¯
l
(
E
)
)
=
g
l
(
L
x
¯
l
(
E
)
)
a
k
p
l
L
k
,
l
=
1
,
2
,
…
,
k
1
α
u
d
k
u
¯
d
x
¯
k
+
α
u
∑
i
=
1
k
−
1
a
i
L
k
−
i
a
k
d
i
u
¯
d
x
¯
i
+
α
u
a
0
L
k
a
k
u
¯
=
f
(
L
x
¯
)
,
x
¯
∈
(
0
,
1
)
α
u
u
¯
x
¯
l
(
E
)
=
g
l
L
x
¯
l
(
E
)
a
k
p
l
L
k
,
l
=
1
,
2
,
…
,
k
1
{:[alpha_(u)(d^(k)( bar(u)))/(d bar(x)^(k))+alpha_(u)sum_(i=1)^(k-1)a_(i)(L^(k-i))/(a_(k))(d^(i)( bar(u)))/(d bar(x)^(i))+alpha_(u)a_(0)(L^(k))/(a_(k)) bar(u)=f(L bar(x))"," bar(x)in(0","1)],[alpha_(u) bar(u)( bar(x)_(l)^((E)))=(g_(l)(L bar(x)_(l)^((E)))a_(k))/(p_(l)L^(k))","l=1","2","dots","k_(1)]:} \begin{aligned}
\alpha_{u} \frac{d^{k} \bar{u}}{d \bar{x}^{k}}+\alpha_{u} \sum_{i=1}^{k-1} a_{i} \frac{L^{k-i}}{a_{k}} \frac{d^{i} \bar{u}}{d \bar{x}^{i}}+\alpha_{u} a_{0} \frac{L^{k}}{a_{k}} \bar{u} & =f(L \bar{x}), \bar{x} \in(0,1) \\
\alpha_{u} \bar{u}\left(\bar{x}_{l}^{(E)}\right) & =\frac{g_{l}\left(L \bar{x}_{l}^{(E)}\right) a_{k}}{p_{l} L^{k}}, l=1,2, \ldots, k_{1}
\end{aligned}
α
u
d
u
¯
(
x
¯
e
(
N
)
)
d
x
¯
=
h
e
(
L
x
¯
e
(
N
)
)
a
k
q
e
L
k
−
1
,
e
=
1
,
2
,
…
,
k
2
α
u
d
u
¯
x
¯
e
(
N
)
d
x
¯
=
h
e
L
x
¯
e
(
N
)
a
k
q
e
L
k
−
1
,
e
=
1
,
2
,
…
,
k
2
alpha_(u)(d( bar(u))( bar(x)_(e)^((N))))/(d( bar(x)))=(h_(e)(L bar(x)_(e)^((N)))a_(k))/(q_(e)L^(k-1)),e=1,2,dots,k_(2) \alpha_{u} \frac{d \bar{u}\left(\bar{x}_{e}^{(N)}\right)}{d \bar{x}}=\frac{h_{e}\left(L \bar{x}_{e}^{(N)}\right) a_{k}}{q_{e} L^{k-1}}, e=1,2, \ldots, k_{2}
两种 hnPINN 的使用取决于 PDE 问题的本质和设置。第 3.3.1 节就何时以及为何应使用类型 1 或类型 2 hnPINN 来适当实现问题的层次归一化形式进行了一些分析和讨论。
在第二阶段,根据分层规范化形式的类型确定次级输出标尺
α
u
α
u
alpha_(u) \alpha_{u} 的选择程序。第 3.3.1 节和第 3.3.2 节介绍了明确
α
u
α
u
alpha_(u) \alpha_{u} 位置的理论角度。 确定最佳
α
u
α
u
alpha_(u) \alpha_{u} 的方法将在第 3.3.2 节中介绍。第 3.4.3 节中的实验分析说明了
α
u
α
u
alpha_(u) \alpha_{u} 对梯度稳定的影响以及 hnPINN 在特定问题上的求解质量。此外,本部分还展示了第 3.3.2 节中提出的
α
u
α
u
alpha_(u) \alpha_{u} 校准框架的有效性。值得注意的是,ndPINN 是 hnPINN 的一种特例,其中 ndPINN 等同于带有
α
u
=
1
α
u
=
1
alpha_(u)=1 \alpha_{u}=1 的 hnPINN(换句话说,类似于 hnPINN,没有步骤 4 中的第二阶段层次归一化)。在实际应用中,二次输出缩放器
α
u
α
u
alpha_(u) \alpha_{u} 的参与是所提出的 hnPINN 与普通 ndPINN 的根本区别。
步骤 5:训练 hnPINN 在这一步骤中,应用第 2 节所述的 PINN 方法,通过类型 1 (22) 或类型 2 (23) 近似分层归一化 PDE 系统的解
u
¯
(
x
¯
)
≈
u
^
(
x
¯
,
θ
n
)
u
¯
(
x
¯
)
≈
u
^
x
¯
,
θ
n
bar(u)( bar(x))~~ hat(u)(( bar(x)),theta_(n)) \bar{u}(\bar{x}) \approx \hat{u}\left(\bar{x}, \theta_{n}\right) 。hnPINN 模型的损失函数定义如下
L
n
=
L
n
D
+
L
n
B
1
+
L
n
B
2
L
n
=
L
n
D
+
L
n
B
1
+
L
n
B
2
L_(n)=L_(nD)+L_(nB1)+L_(nB2) \mathcal{L}_{n}=\mathcal{L}_{n \mathcal{D}}+\mathcal{L}_{n B 1}+\mathcal{L}_{n B 2}
因此,1 型 hnPINN 的均方残差
L
n
D
,
L
n
B
1
L
n
D
,
L
n
B
1
L_(nD),L_(nB1) \mathcal{L}_{n \mathcal{D}}, \mathcal{L}_{n \mathcal{B} 1} 和
L
n
B
2
L
n
B
2
L_(nB2) \mathcal{L}_{n \mathcal{B} 2} 分别为
L
n
D
=
1
N
D
∑
i
=
1
N
D
[
d
k
u
^
(
x
¯
i
(
D
)
,
θ
n
)
d
x
¯
k
+
∑
i
=
1
k
−
1
a
i
L
k
−
i
a
k
d
i
u
^
(
x
¯
i
(
D
)
,
θ
n
)
d
x
¯
i
+
a
0
L
k
a
k
u
^
(
x
¯
i
(
D
)
,
θ
n
)
−
f
(
L
x
¯
i
(
D
)
)
α
u
]
2
,
x
¯
i
(
D
)
∈
(
0
,
1
)
L
n
B
1
=
[
u
^
(
x
¯
l
(
E
)
,
θ
n
)
−
g
l
(
L
x
¯
l
(
E
)
)
a
k
α
u
p
l
L
k
]
2
,
l
=
1
,
2
,
…
,
k
1
L
n
B
2
=
[
d
u
^
(
x
¯
l
(
N
)
,
θ
n
)
d
x
¯
−
h
(
L
x
¯
l
(
N
)
)
a
k
α
u
q
L
k
−
1
]
2
,
e
=
1
,
2
,
…
,
k
2
L
n
D
=
1
N
D
∑
i
=
1
N
D
d
k
u
^
x
¯
i
(
D
)
,
θ
n
d
x
¯
k
+
∑
i
=
1
k
−
1
a
i
L
k
−
i
a
k
d
i
u
^
x
¯
i
(
D
)
,
θ
n
d
x
¯
i
+
a
0
L
k
a
k
u
^
x
¯
i
(
D
)
,
θ
n
−
f
L
x
¯
i
(
D
)
α
u
2
,
x
¯
i
(
D
)
∈
(
0
,
1
)
L
n
B
1
=
u
^
x
¯
l
(
E
)
,
θ
n
−
g
l
L
x
¯
l
(
E
)
a
k
α
u
p
l
L
k
2
,
l
=
1
,
2
,
…
,
k
1
L
n
B
2
=
d
u
^
x
¯
l
(
N
)
,
θ
n
d
x
¯
−
h
L
x
¯
l
(
N
)
a
k
α
u
q
L
k
−
1
2
,
e
=
1
,
2
,
…
,
k
2
{:[L_(nD)=(1)/(N_(D))sum_(i=1)^(N_(D))[(d^(k)( hat(u))( bar(x)_(i)^((D)),theta_(n)))/(d bar(x)^(k))+sum_(i=1)^(k-1)a_(i)(L^(k-i))/(a_(k))(d^(i)( hat(u))( bar(x)_(i)^((D)),theta_(n)))/(d bar(x)^(i)):}],[+a_(0)(L^(k))/(a_(k))( hat(u))( bar(x)_(i)^((D)),theta_(n))-(f(L bar(x)_(i)^((D))))/(alpha_(u))]^(2)","],[ bar(x)_(i)^((D))in(0","1)],[L_(nB1)={:[( hat(u))( bar(x)_(l)^((E)),theta_(n))-(g_(l)(L bar(x)_(l)^((E)))a_(k))/(alpha_(u)p_(l)L^(k))]^(2)","l=1","2","dots","k_(1):}],[L_(nB2)={:[(d( hat(u))( bar(x)_(l)^((N)),theta_(n)))/(d( bar(x)))-(h(L bar(x)_(l)^((N)))a_(k))/(alpha_(u)qL^(k-1))]^(2)","e=1","2","dots","k_(2):}]:} \begin{aligned}
\mathcal{L}_{n \mathcal{D}}= & \frac{1}{N_{D}} \sum_{i=1}^{N_{D}}\left[\frac{d^{k} \hat{u}\left(\bar{x}_{i}^{(D)}, \boldsymbol{\theta}_{n}\right)}{d \bar{x}^{k}}+\sum_{i=1}^{k-1} a_{i} \frac{L^{k-i}}{a_{k}} \frac{d^{i} \hat{u}\left(\bar{x}_{i}^{(D)}, \boldsymbol{\theta}_{n}\right)}{d \bar{x}^{i}}\right. \\
& \left.+a_{0} \frac{L^{k}}{a_{k}} \hat{u}\left(\bar{x}_{i}^{(D)}, \boldsymbol{\theta}_{n}\right)-\frac{f\left(L \bar{x}_{i}^{(D)}\right)}{\alpha_{u}}\right]^{2}, \\
& \bar{x}_{i}^{(D)} \in(0,1) \\
\mathcal{L}_{n \mathcal{B} 1}= & {\left[\hat{u}\left(\bar{x}_{l}^{(E)}, \boldsymbol{\theta}_{n}\right)-\frac{g_{l}\left(L \bar{x}_{l}^{(E)}\right) a_{k}}{\alpha_{u} p_{l} L^{k}}\right]^{2}, l=1,2, \ldots, k_{1} } \\
\mathcal{L}_{n \mathcal{B} 2}= & {\left[\frac{d \hat{u}\left(\bar{x}_{l}^{(N)}, \boldsymbol{\theta}_{n}\right)}{d \bar{x}}-\frac{h\left(L \bar{x}_{l}^{(N)}\right) a_{k}}{\alpha_{u} q L^{k-1}}\right]^{2}, e=1,2, \ldots, k_{2} }
\end{aligned}
和 2 型 hnPINN 的数据由
L
n
D
=
1
N
D
∑
i
=
1
N
D
[
α
u
d
k
u
^
(
x
¯
i
(
D
)
,
θ
n
)
d
x
¯
k
+
α
u
∑
i
=
1
k
−
1
a
i
L
k
−
i
a
k
d
i
u
^
(
x
¯
i
(
D
)
,
θ
n
)
d
x
¯
i
+
α
u
a
0
L
k
a
k
u
^
(
x
¯
i
(
D
)
,
θ
n
)
−
f
(
L
x
¯
i
(
D
)
)
]
2
,
x
¯
i
(
D
)
∈
(
0
,
1
)
L
n
B
1
=
[
α
u
u
^
(
x
¯
l
(
E
)
,
θ
n
)
−
g
l
(
L
x
¯
l
(
E
)
)
a
k
p
l
L
k
]
2
,
l
=
1
,
2
,
…
,
k
1
L
n
B
2
=
[
α
u
d
u
^
(
x
¯
l
(
N
)
,
θ
n
)
d
x
¯
−
h
(
L
x
¯
l
(
N
)
)
a
k
q
L
k
−
1
]
2
,
e
=
1
,
2
,
…
,
k
2
L
n
D
=
1
N
D
∑
i
=
1
N
D
α
u
d
k
u
^
x
¯
i
(
D
)
,
θ
n
d
x
¯
k
+
α
u
∑
i
=
1
k
−
1
a
i
L
k
−
i
a
k
d
i
u
^
x
¯
i
(
D
)
,
θ
n
d
x
¯
i
+
α
u
a
0
L
k
a
k
u
^
x
¯
i
(
D
)
,
θ
n
−
f
L
x
¯
i
(
D
)
2
,
x
¯
i
(
D
)
∈
(
0
,
1
)
L
n
B
1
=
α
u
u
^
x
¯
l
(
E
)
,
θ
n
−
g
l
L
x
¯
l
(
E
)
a
k
p
l
L
k
2
,
l
=
1
,
2
,
…
,
k
1
L
n
B
2
=
α
u
d
u
^
x
¯
l
(
N
)
,
θ
n
d
x
¯
−
h
L
x
¯
l
(
N
)
a
k
q
L
k
−
1
2
,
e
=
1
,
2
,
…
,
k
2
{:[L_(nD)=(1)/(N_(D))sum_(i=1)^(N_(D))[alpha_(u)(d^(k)( hat(u))( bar(x)_(i)^((D)),theta_(n)))/(d bar(x)^(k))+alpha_(u)sum_(i=1)^(k-1)a_(i)(L^(k-i))/(a_(k))(d^(i)( hat(u))( bar(x)_(i)^((D)),theta_(n)))/(d bar(x)^(i)):}],[+alpha_(u)a_(0)(L^(k))/(a_(k))( hat(u))( bar(x)_(i)^((D)),theta_(n))-f(L bar(x)_(i)^((D)))]^(2)","],[ bar(x)_(i)^((D))in(0","1)],[L_(nB1)={:[alpha_(u)( hat(u))( bar(x)_(l)^((E)),theta_(n))-(g_(l)(L bar(x)_(l)^((E)))a_(k))/(p_(l)L^(k))]^(2)","l=1","2","dots","k_(1):}],[L_(nB2)={:[alpha_(u)(d( hat(u))( bar(x)_(l)^((N)),theta_(n)))/(d( bar(x)))-(h(L bar(x)_(l)^((N)))a_(k))/(qL^(k-1))]^(2)","e=1","2","dots","k_(2):}]:} \begin{aligned}
\mathcal{L}_{n \mathcal{D}}= & \frac{1}{N_{D}} \sum_{i=1}^{N_{D}}\left[\alpha_{u} \frac{d^{k} \hat{u}\left(\bar{x}_{i}^{(D)}, \boldsymbol{\theta}_{n}\right)}{d \bar{x}^{k}}+\alpha_{u} \sum_{i=1}^{k-1} a_{i} \frac{L^{k-i}}{a_{k}} \frac{d^{i} \hat{u}\left(\bar{x}_{i}^{(D)}, \boldsymbol{\theta}_{n}\right)}{d \bar{x}^{i}}\right. \\
& \left.+\alpha_{u} a_{0} \frac{L^{k}}{a_{k}} \hat{u}\left(\bar{x}_{i}^{(D)}, \boldsymbol{\theta}_{n}\right)-f\left(L \bar{x}_{i}^{(D)}\right)\right]^{2}, \\
& \bar{x}_{i}^{(D)} \in(0,1) \\
\mathcal{L}_{n \mathcal{B} 1}= & {\left[\alpha_{u} \hat{u}\left(\bar{x}_{l}^{(E)}, \boldsymbol{\theta}_{n}\right)-\frac{g_{l}\left(L \bar{x}_{l}^{(E)}\right) a_{k}}{p_{l} L^{k}}\right]^{2}, l=1,2, \ldots, k_{1} } \\
\mathcal{L}_{n \mathcal{B} 2}= & {\left[\alpha_{u} \frac{d \hat{u}\left(\bar{x}_{l}^{(N)}, \boldsymbol{\theta}_{n}\right)}{d \bar{x}}-\frac{h\left(L \bar{x}_{l}^{(N)}\right) a_{k}}{q L^{k-1}}\right]^{2}, e=1,2, \ldots, k_{2} }
\end{aligned}
其中,
N
D
N
D
N_(D) N_{D} 是在内域中随机采样的定位点数量,
θ
n
θ
n
theta_(n) \theta_{n} 是 hnPINN 模型的网络参数。由 hnPINN 得出的潜在解的相应预测值由以下公式确定
u
h
n
P
I
N
N
=
α
u
U
0
u
^
(
x
¯
,
θ
n
)
u
h
n
P
I
N
N
=
α
u
U
0
u
^
x
¯
,
θ
n
u_(hnPINN)=alpha_(u)U_(0) hat(u)(( bar(x)),theta_(n)) u_{h n P I N N}=\alpha_{u} U_{0} \hat{u}\left(\bar{x}, \theta_{n}\right)
算法 1 概述了 hnPINN 方法的技术流程。从上述 hnPINN 的描述中可以看出,所提出的 hnPINN 可以看作是在训练 PINN 模型之前的一个预处理过程,以减少条件不良损失景观所带来的困难。因此,值得注意的是,在 DNN 配置和训练设置相同的情况下,hnPINN 训练过程中每次迭代的计算成本肯定与原始 PINN 和 ndPINN 的计算成本相等。
算法 1 hnPINN 程序 要求:强形式的 PDE 问题(如 BVP (8) 1: 确定 PDE 系统的输入和输出变量,类似于第 3.2 节中的步骤 1 通过一级和二级输出标尺确定归一化输入和输出变量,类似于第 3.2 节中的步骤 2 按照第 3.2 节中的步骤 3 相似的方法,用归一化变量部署原始问题 根据第 3.2 节步骤 4 和第 3.3.1 节备注 3.5,确定使用类型 1 或类型 2 hnPINN 与第 3.2 节中的步骤 4 相似,确定主标度器的最佳值 通过第 3.3.2 节中的算法 3 确定二级输出标度的最佳值 使用适当的超参数配置神经网络和训练设置 8:训练 hnPINN 模型,类似于第 3.2 节中的步骤 5 9: 确定 hnPINN 解,类似于公式 (27) 返回 hnPINN 解决方案
3.3.次级输出缩放器选择
3.3.1.二级输出标度在分层归一化中的作用
本节将从理论上分析二次输出标度对两种 hnPINN 梯度边界的影响。通过使用具有
N
N
N N 隐藏节点的浅层 NN 来考虑 hnPINN 问题 (8),可以得到以下两种分层归一化形式
d
k
u
¯
d
x
¯
k
=
f
α
u
,
x
¯
∈
(
0
,
1
)
u
¯
(
x
¯
l
(
E
)
)
=
g
l
a
α
u
p
l
L
k
,
l
=
1
,
2
,
…
,
k
1
d
u
¯
(
x
¯
e
(
N
)
)
d
x
¯
=
h
e
a
α
u
q
e
L
k
−
1
,
e
=
1
,
2
,
…
,
k
2
d
k
u
¯
d
x
¯
k
=
f
α
u
,
x
¯
∈
(
0
,
1
)
u
¯
x
¯
l
(
E
)
=
g
l
a
α
u
p
l
L
k
,
l
=
1
,
2
,
…
,
k
1
d
u
¯
x
¯
e
(
N
)
d
x
¯
=
h
e
a
α
u
q
e
L
k
−
1
,
e
=
1
,
2
,
…
,
k
2
{:[(d^(k)( bar(u)))/(d bar(x)^(k))=(f)/(alpha_(u))"," bar(x)in(0","1)],[ bar(u)( bar(x)_(l)^((E)))=(g_(l)a)/(alpha_(u)p_(l)L^(k))","l=1","2","dots","k_(1)],[(d( bar(u))( bar(x)_(e)^((N))))/(d( bar(x)))=(h_(e)a)/(alpha_(u)q_(e)L^(k-1))","e=1","2","dots","k_(2)]:} \begin{aligned}
\frac{d^{k} \bar{u}}{d \bar{x}^{k}} & =\frac{f}{\alpha_{u}}, \bar{x} \in(0,1) \\
\bar{u}\left(\bar{x}_{l}^{(E)}\right) & =\frac{g_{l} a}{\alpha_{u} p_{l} L^{k}}, l=1,2, \ldots, k_{1} \\
\frac{d \bar{u}\left(\bar{x}_{e}^{(N)}\right)}{d \bar{x}} & =\frac{h_{e} a}{\alpha_{u} q_{e} L^{k-1}}, e=1,2, \ldots, k_{2}
\end{aligned}
α
u
d
k
u
¯
d
x
¯
k
=
f
,
x
¯
∈
(
0
,
1
)
α
u
u
¯
(
x
¯
l
(
E
)
)
=
g
l
a
p
l
L
k
,
l
=
1
,
2
,
…
,
k
1
α
u
d
u
¯
(
x
¯
e
(
N
)
)
d
x
¯
=
h
e
a
q
e
L
k
−
1
,
e
=
1
,
2
,
…
,
k
2
α
u
d
k
u
¯
d
x
¯
k
=
f
,
x
¯
∈
(
0
,
1
)
α
u
u
¯
x
¯
l
(
E
)
=
g
l
a
p
l
L
k
,
l
=
1
,
2
,
…
,
k
1
α
u
d
u
¯
x
¯
e
(
N
)
d
x
¯
=
h
e
a
q
e
L
k
−
1
,
e
=
1
,
2
,
…
,
k
2
{:[alpha_(u)(d^(k)( bar(u)))/(d bar(x)^(k))=f"," bar(x)in(0","1)],[alpha_(u) bar(u)( bar(x)_(l)^((E)))=(g_(l)a)/(p_(l)L^(k))","l=1","2","dots","k_(1)],[alpha_(u)(d( bar(u))( bar(x)_(e)^((N))))/(d( bar(x)))=(h_(e)a)/(q_(e)L^(k-1))","e=1","2","dots","k_(2)]:} \begin{aligned}
\alpha_{u} \frac{d^{k} \bar{u}}{d \bar{x}^{k}} & =f, \bar{x} \in(0,1) \\
\alpha_{u} \bar{u}\left(\bar{x}_{l}^{(E)}\right) & =\frac{g_{l} a}{p_{l} L^{k}}, l=1,2, \ldots, k_{1} \\
\alpha_{u} \frac{d \bar{u}\left(\bar{x}_{e}^{(N)}\right)}{d \bar{x}} & =\frac{h_{e} a}{q_{e} L^{k-1}}, e=1,2, \ldots, k_{2}
\end{aligned}
中的主标度分别为
X
0
=
L
X
0
=
L
X_(0)=L X_{0}=L 和
U
0
=
L
k
a
U
0
=
L
k
a
U_(0)=(L^(k))/(a) U_{0}=\frac{L^{k}}{a} 。根据定理 3.2 和 hnPINN 损失函数类似于式 (25)(26),我们可以推导出问题 (8) 的 1 型和 2 型 hnPINN 损失梯度的上界如下
sup
t
∈
[
0
,
T
]
‖
∇
L
n
D
‖
∞
≤
O
(
k
)
+
O
(
|
1
α
u
k
f
|
)
+
O
(
1
)
sup
t
∈
[
0
,
T
]
‖
∇
L
n
B
1
,
l
‖
∞
≤
O
(
|
1
α
u
g
l
a
p
l
L
k
|
)
+
O
(
1
)
,
l
=
1
,
2
,
…
,
k
1
sup
t
∈
[
0
,
T
]
‖
∇
L
n
B
2
,
e
‖
∞
≤
O
(
|
1
α
u
h
e
a
q
e
L
k
−
1
|
)
+
O
(
1
)
,
e
=
1
,
2
,
…
,
k
2
sup
t
∈
[
0
,
T
]
∇
L
n
D
∞
≤
O
(
k
)
+
O
1
α
u
k
f
+
O
(
1
)
sup
t
∈
[
0
,
T
]
∇
L
n
B
1
,
l
∞
≤
O
1
α
u
g
l
a
p
l
L
k
+
O
(
1
)
,
l
=
1
,
2
,
…
,
k
1
sup
t
∈
[
0
,
T
]
∇
L
n
B
2
,
e
∞
≤
O
1
α
u
h
e
a
q
e
L
k
−
1
+
O
(
1
)
,
e
=
1
,
2
,
…
,
k
2
{:[s u p_(t in[0,T])||gradL_(nD)||_(oo) <= O(k)+O(|(1)/(alpha_(u))kf|)+O(1)],[s u p_(t in[0,T])||gradL_(nB1,l)||_(oo) <= O(|(1)/(alpha_(u))(g_(l)a)/(p_(l)L^(k))|)+O(1)","l=1","2","dots","k_(1)],[s u p_(t in[0,T])||gradL_(nB2,e)||_(oo) <= O(|(1)/(alpha_(u))(h_(e)a)/(q_(e)L^(k-1))|)+O(1)","e=1","2","dots","k_(2)]:} \begin{aligned}
& \sup _{t \in[0, T]}\left\|\nabla \mathcal{L}_{n \mathcal{D}}\right\|_{\infty} \leq \mathcal{O}(k)+\mathcal{O}\left(\left|\frac{1}{\alpha_{u}} k f\right|\right)+\mathcal{O}(1) \\
& \sup _{t \in[0, T]}\left\|\nabla \mathcal{L}_{n \mathcal{B} 1, l}\right\|_{\infty} \leq \mathcal{O}\left(\left|\frac{1}{\alpha_{u}} \frac{g_{l} a}{p_{l} L^{k}}\right|\right)+\mathcal{O}(1), l=1,2, \ldots, k_{1} \\
& \sup _{t \in[0, T]}\left\|\nabla \mathcal{L}_{n B 2, e}\right\|_{\infty} \leq \mathcal{O}\left(\left|\frac{1}{\alpha_{u}} \frac{h_{e} a}{q_{e} L^{k-1}}\right|\right)+\mathcal{O}(1), e=1,2, \ldots, k_{2}
\end{aligned}
sup
t
∈
[
0
,
T
]
‖
∇
L
n
D
‖
∞
≤
O
(
α
u
2
k
)
+
O
(
|
α
u
k
f
|
)
+
O
(
1
)
sup
t
∈
[
0
,
T
]
‖
∇
L
n
B
1
,
l
‖
∞
≤
O
(
α
u
2
)
+
O
(
|
α
u
g
l
a
p
l
L
k
|
)
+
O
(
1
)
,
l
=
1
,
2
,
…
,
k
1
sup
t
∈
[
0
,
T
]
‖
∇
L
n
B
2
,
e
‖
∞
≤
O
(
α
u
2
)
+
O
(
|
α
u
h
e
a
q
e
L
k
−
1
|
)
+
O
(
1
)
,
e
=
1
,
2
,
…
,
k
2
sup
t
∈
[
0
,
T
]
∇
L
n
D
∞
≤
O
α
u
2
k
+
O
α
u
k
f
+
O
(
1
)
sup
t
∈
[
0
,
T
]
∇
L
n
B
1
,
l
∞
≤
O
α
u
2
+
O
α
u
g
l
a
p
l
L
k
+
O
(
1
)
,
l
=
1
,
2
,
…
,
k
1
sup
t
∈
[
0
,
T
]
∇
L
n
B
2
,
e
∞
≤
O
α
u
2
+
O
α
u
h
e
a
q
e
L
k
−
1
+
O
(
1
)
,
e
=
1
,
2
,
…
,
k
2
{:[s u p_(t in[0,T])||gradL_(nD)||_(oo) <= O(alpha_(u)^(2)k)+O(|alpha_(u)kf|)+O(1)],[s u p_(t in[0,T])||gradL_(nB1,l)||_(oo) <= O(alpha_(u)^(2))+O(|alpha_(u)(g_(l)a)/(p_(l)L^(k))|)+O(1)","l=1","2","dots","k_(1)],[s u p_(t in[0,T])||gradL_(nB2,e)||_(oo) <= O(alpha_(u)^(2))+O(|alpha_(u)(h_(e)a)/(q_(e)L^(k-1))|)+O(1)","e=1","2","dots","k_(2)]:} \begin{aligned}
& \sup _{t \in[0, T]}\left\|\nabla \mathcal{L}_{n \mathcal{D}}\right\|_{\infty} \leq \mathcal{O}\left(\alpha_{u}^{2} k\right)+\mathcal{O}\left(\left|\alpha_{u} k f\right|\right)+\mathcal{O}(1) \\
& \sup _{t \in[0, T]}\left\|\nabla \mathcal{L}_{n \mathcal{B} 1, l}\right\|_{\infty} \leq \mathcal{O}\left(\alpha_{u}^{2}\right)+\mathcal{O}\left(\left|\alpha_{u} \frac{g_{l} a}{p_{l} L^{k}}\right|\right)+\mathcal{O}(1), l=1,2, \ldots, k_{1} \\
& \sup _{t \in[0, T]}\left\|\nabla \mathcal{L}_{n \mathcal{B} 2, e}\right\|_{\infty} \leq \mathcal{O}\left(\alpha_{u}^{2}\right)+\mathcal{O}\left(\left|\alpha_{u} \frac{h_{e} a}{q_{e} L^{k-1}}\right|\right)+\mathcal{O}(1), e=1,2, \ldots, k_{2}
\end{aligned}
在不失一般性的前提下,我们假设
α
u
>
0
α
u
>
0
alpha_(u) > 0 \alpha_{u}>0 。从(30)-(31)可以看出,两个 hnPINN 的损失分量的梯度边界在很大程度上取决于
k
,
k
f
,
g
l
a
p
1
L
k
k
,
k
f
,
g
l
a
p
1
L
k
k,kf,(g_(l)a)/(p_(1)L^(k)) k, k f, \frac{g_{l} a}{p_{1} L^{k}} 和
h
e
a
q
e
L
k
−
1
h
e
a
q
e
L
k
−
1
(h_(e)a)/(q_(e)L^(k-1)) \frac{h_{e} a}{q_{e} L^{k-1}} 与
l
=
1
,
2
,
…
,
k
1
l
=
1
,
2
,
…
,
k
1
l=1,2,dots,k_(1) l=1,2, \ldots, k_{1} 和
e
=
1
,
2
,
…
,
k
2
e
=
1
,
2
,
…
,
k
2
e=1,2,dots,k_(2) e=1,2, \ldots, k_{2} 的大小。特别是当右边项巨大或太小时,梯度流可能会爆炸或 如果
α
u
α
u
alpha_(u) \alpha_{u} 的值选择不当,梯度将分别消失。因此,利用辅助输出标度器
α
u
α
u
alpha_(u) \alpha_{u} 将梯度边界调整到合适的范围,以避免上述障碍,从而强化训练过程。备注
3.5
−
3.6
3.5
−
3.6
3.5-3.6 3.5-3.6 进一步从一些角度介绍了两种 hnPINN 方法的特点以及
α
u
α
u
alpha_(u) \alpha_{u} 的相应作用。这些都是第 3.3.2 节中构建启发式框架以确定合适的
α
u
α
u
alpha_(u) \alpha_{u} 的灵感来源。
备注 3.5.1 型 hnPINN 控制的是 PDE 参数(右侧项)的大小,而 2 型 hnPINN 调整的是解导数(左侧项)的大小。此外,两种 hnPINN 的至高梯度边界 sup
‖
∇
L
‖
∞
=
max
{
sup
‖
∇
L
n
D
‖
∞
,
sup
‖
∇
L
n
B
1
,
l
‖
∞
‖
∇
L
‖
∞
=
max
sup
∇
L
n
D
∞
,
sup
∇
L
n
B
1
,
l
∞
||gradL||_(oo)=max{s u p||gradL_(nD)||_(oo),s u p||gradL_(nB1,l)||_(oo):} \|\nabla \mathcal{L}\|_{\infty}=\max \left\{\sup \left\|\nabla \mathcal{L}_{n \mathcal{D}}\right\|_{\infty}, \sup \left\|\nabla \mathcal{L}_{n \mathcal{B} 1, l}\right\|_{\infty}\right. ,
sup
‖
∇
L
n
B
2
,
e
‖
∞
}
sup
∇
L
n
B
2
,
e
∞
{: s u p||gradL_(nB2,e)||_(oo)} \left.\sup \left\|\nabla \mathcal{L}_{n B 2, e}\right\|_{\infty}\right\} 的大小顺序也不同。从 (30) 中可以看出,1 型 hnPINN 的
sup
‖
∇
L
‖
∞
sup
‖
∇
L
‖
∞
s u p||gradL||_(oo) \sup \|\nabla \mathcal{L}\|_{\infty} 不能小于
O
(
k
)
O
(
k
)
O(k) \mathcal{O}(k) ,而 2 型 hnPINN 的
sup
‖
∇
L
‖
∞
sup
‖
∇
L
‖
∞
s u p||gradL||_(oo) \sup \|\nabla \mathcal{L}\|_{\infty} 则与
α
u
α
u
alpha_(u) \alpha_{u} 四次方相关,如 (31) 所示。这一特性带来了这些归一化方法的利弊。具体来说,如果 PINN 损失函数的非条件化是由右侧参数引起的,则类型-1 模型比类型-2 模型更合适。这是因为类型-2 的
α
u
α
u
alpha_(u) \alpha_{u} 必须与右侧项成正比,才能将左侧解导数调整为合适的大小阶,根据 (31) 所述,当这些量因
sup
‖
∇
L
‖
∞
sup
‖
∇
L
‖
∞
s u p||gradL||_(oo) \sup \|\nabla \mathcal{L}\|_{\infty} 不足而过小或过大时,类型-2 hnPINN 训练过程就会因此消失或发散。此外,如果由于 PDE 问题的微分阶数
k
k
k k 过大和/或左侧项中的解导数强度过大而导致训练过程效率低下,则 1 型模型可能会因为过大的 sup
‖
∇
L
‖
∞
‖
∇
L
‖
∞
||gradL||_(oo) \|\nabla \mathcal{L}\|_{\infty} 而不适合,而应采用 2 型模型。
备注 3.6.
α
u
α
u
alpha_(u) \alpha_{u} 对两种 hnPINN 类型的损失梯度边界的作用是不同的。根据 (30),
α
u
α
u
alpha_(u) \alpha_{u} 以负 1 的幂次改变了 1 型 hnPINN 的梯度边界,而指数式调整了 2 型 hnPINN 的梯度边界,如 (31) 所示,以正幂次调整了 2 型 hnPINN 的梯度边界。这就导致了在确定最优
α
u
α
u
alpha_(u) \alpha_{u} 以最大化每种类型的 hnPINN 性能时的不同策略。
3.3.2.选择二级输出缩放器的框架
根据上述分析,我们建立了一个确定合适的
α
u
α
u
alpha_(u) \alpha_{u} 的框架。根据(30)-(31),我们对两个层次归一化形式(22)-(23)的所谓 hnPINN 梯度约束特征函数
C
‖
∇
L
‖
C
‖
∇
L
‖
C_(||gradL||) C_{\|\nabla \mathcal{L}\|} 定义如下
C
‖
∇
L
‖
(
α
u
)
=
max
{
k
+
1
α
u
M
2
[
f
(
L
x
¯
)
]
,
1
α
u
M
2
[
g
l
(
L
x
¯
(
E
)
)
a
k
p
l
L
k
]
1
α
u
M
2
[
h
e
(
L
x
¯
(
N
)
)
a
k
q
e
L
k
−
1
]
}
C
‖
∇
L
‖
α
u
=
max
k
+
1
α
u
M
2
[
f
(
L
x
¯
)
]
,
1
α
u
M
2
g
l
L
x
¯
(
E
)
a
k
p
l
L
k
1
α
u
M
2
h
e
L
x
¯
(
N
)
a
k
q
e
L
k
−
1
{:[C_(||gradL||)(alpha_(u))= max{k+(1)/(alpha_(u))M_(2)[f(L( bar(x)))],(1)/(alpha_(u))M_(2)[(g_(l)(L bar(x)^((E)))a_(k))/(p_(l)L^(k))]:}],[{:(1)/(alpha_(u))M_(2)[(h_(e)(L bar(x)^((N)))a_(k))/(q_(e)L^(k-1))]}]:} \begin{aligned}
C_{\|\nabla \mathcal{L}\|}\left(\alpha_{u}\right)= & \max \left\{k+\frac{1}{\alpha_{u}} M_{2}[f(L \bar{x})], \frac{1}{\alpha_{u}} M_{2}\left[\frac{g_{l}\left(L \bar{x}^{(E)}\right) a_{k}}{p_{l} L^{k}}\right]\right. \\
& \left.\frac{1}{\alpha_{u}} M_{2}\left[\frac{h_{e}\left(L \bar{x}^{(N)}\right) a_{k}}{q_{e} L^{k-1}}\right]\right\}
\end{aligned}
C
‖
V
C
‖
(
α
u
)
=
max
{
α
u
2
k
+
α
u
M
2
[
k
f
(
L
x
¯
)
]
,
α
u
2
+
α
u
M
2
[
g
l
(
L
x
¯
(
E
)
)
a
k
p
l
L
k
]
C
‖
V
C
‖
α
u
=
max
α
u
2
k
+
α
u
M
2
[
k
f
(
L
x
¯
)
]
,
α
u
2
+
α
u
M
2
g
l
L
x
¯
(
E
)
a
k
p
l
L
k
C_(||VC||)(alpha_(u))=max{alpha_(u)^(2)k+alpha_(u)M_(2)[kf(L( bar(x)))],alpha_(u)^(2)+alpha_(u)M_(2)[(g_(l)(L bar(x)^((E)))a_(k))/(p_(l)L^(k))]:} C_{\|V \mathcal{C}\|}\left(\alpha_{u}\right)=\max \left\{\alpha_{u}^{2} k+\alpha_{u} M_{2}[k f(L \bar{x})], \alpha_{u}^{2}+\alpha_{u} M_{2}\left[\frac{g_{l}\left(L \bar{x}^{(E)}\right) a_{k}}{p_{l} L^{k}}\right]\right.
α
u
2
+
α
u
M
2
[
h
e
(
L
x
¯
(
N
)
)
a
k
q
e
L
k
−
1
]
}
α
u
2
+
α
u
M
2
h
e
L
x
¯
(
N
)
a
k
q
e
L
k
−
1
{:alpha_(u)^(2)+alpha_(u)M_(2)[(h_(e)(L bar(x)^((N)))a_(k))/(q_(e)L^(k-1))]} \left.\alpha_{u}^{2}+\alpha_{u} M_{2}\left[\frac{h_{e}\left(L \bar{x}^{(N)}\right) a_{k}}{q_{e} L^{k-1}}\right]\right\}
其中,区间
[
T
1
,
T
2
]
T
1
,
T
2
[T_(1),T_(2)] \left[T_{1}, T_{2}\right] 上的
M
2
[
f
]
M
2
[
f
]
M_(2)[f] M_{2}[f] 是
f
(
x
)
f
(
x
)
f(x) f(x) 的二次平均值,定义如下
M
2
[
f
]
=
(
1
T
2
−
T
1
∫
T
1
T
2
f
2
d
x
)
1
2
M
2
[
f
]
=
1
T
2
−
T
1
∫
T
1
T
2
f
2
d
x
1
2
M_(2)[f]=((1)/(T_(2)-T_(1))int_(T_(1))^(T_(2))f^(2)dx)^((1)/(2)) M_{2}[f]=\left(\frac{1}{T_{2}-T_{1}} \int_{T_{1}}^{T_{2}} f^{2} d x\right)^{\frac{1}{2}} 所提出的函数
C
‖
∇
L
‖
(
α
u
)
C
‖
∇
L
‖
α
u
C_(||gradL||)(alpha_(u)) C_{\|\nabla \mathcal{L}\|}\left(\alpha_{u}\right) 旨在说明两个 hnPINN 模型的最大损失梯度边界与二次标度器
α
u
α
u
alpha_(u) \alpha_{u} 之间的关系。需要注意的是,
C
‖
∇
L
‖
(
α
u
)
C
‖
∇
L
‖
α
u
C_(||gradL||)(alpha_(u)) C_{\|\nabla \mathcal{L}\|}\left(\alpha_{u}\right) 应在
[
C
―
‖
∇
L
‖
,
C
¯
‖
∇
L
‖
]
C
_
‖
∇
L
‖
,
C
¯
‖
∇
L
‖
[C__(||gradL||), bar(C)_(||gradL||)] \left[\underline{C}_{\|\nabla \mathcal{L}\|}, \bar{C}_{\|\nabla \mathcal{L}\|}\right] 的适当范围内,以保证 hnPINN 的训练效率,
C
―
‖
∇
L
‖
C
_
‖
∇
L
‖
C__(||gradL||) \underline{C}_{\|\nabla \mathcal{L}\|} 和
C
¯
‖
∇
L
‖
C
¯
‖
∇
L
‖
bar(C)_(||gradL||) \bar{C}_{\|\nabla \mathcal{L}\|} 分别代表
C
‖
∇
L
‖
(
α
u
)
C
‖
∇
L
‖
α
u
C_(||gradL||)(alpha_(u)) C_{\|\nabla \mathcal{L}\|}\left(\alpha_{u}\right) 的适当下限值和上限值。虽然最佳
α
u
α
u
alpha_(u) \alpha_{u} 取决于问题类型、所使用的网络结构和训练算法,但根据我们的深入实验,其边界
[
C
―
‖
∇
L
‖
,
C
¯
‖
∇
L
‖
]
C
_
‖
∇
L
‖
,
C
¯
‖
∇
L
‖
[C__(||gradL||), bar(C)_(||gradL||)] \left[\underline{C}_{\|\nabla \mathcal{L}\|}, \bar{C}_{\|\nabla \mathcal{L}\|}\right] 似乎对它们并不敏感。此外,式 (32)-(33) 中的
C
‖
∇
L
‖
(
α
u
)
C
‖
∇
L
‖
α
u
C_(||gradL||)(alpha_(u)) C_{\|\nabla \mathcal{L}\|}\left(\alpha_{u}\right) 函数相对于
α
u
>
0
α
u
>
0
alpha_(u) > 0 \alpha_{u}>0 是单调的,对于具有
α
―
u
=
C
‖
∇
L
‖
−
1
(
C
―
‖
∇
L
‖
)
α
_
u
=
C
‖
∇
L
‖
−
1
C
_
‖
∇
L
‖
alpha __(u)=C_(||gradL||)^(-1)(C__(||gradL||)) \underline{\alpha}_{u}=C_{\|\nabla \mathcal{L}\|}^{-1}\left(\underline{C}_{\|\nabla \mathcal{L}\|}\right) 和
α
¯
u
=
C
‖
∇
L
‖
−
1
(
C
¯
‖
∇
L
‖
)
α
¯
u
=
C
‖
∇
L
‖
−
1
C
¯
‖
∇
L
‖
bar(alpha)_(u)=C_(||gradL||)^(-1)( bar(C)_(||gradL||)) \bar{\alpha}_{u}=C_{\|\nabla \mathcal{L}\|}^{-1}\left(\bar{C}_{\|\nabla \mathcal{L}\|}\right) 的每个问题,都存在与
[
C
―
‖
∇
L
‖
,
C
¯
‖
∇
L
‖
]
C
_
‖
∇
L
‖
,
C
¯
‖
∇
L
‖
[C__(||gradL||), bar(C)_(||gradL||)] \left[\underline{C}_{\|\nabla \mathcal{L}\|}, \bar{C}_{\|\nabla \mathcal{L}\|}\right] 相对应的排他性约束
[
α
―
u
,
α
¯
u
]
α
_
u
,
α
¯
u
[alpha __(u), bar(alpha)_(u)] \left[\underline{\alpha}_{u}, \bar{\alpha}_{u}\right] ,其中
C
‖
∇
L
‖
−
1
C
‖
∇
L
‖
−
1
C_(||gradL||)^(-1) C_{\|\nabla \mathcal{L}\|}^{-1} 是
C
‖
∇
L
‖
C
‖
∇
L
‖
C_(||gradL||) C_{\|\nabla \mathcal{L}\|} 的反函数。此外,由于备注 3.5-3.6 中讨论了两个 hnPINN 模型的用法和
α
u
α
u
alpha_(u) \alpha_{u} 的作用,我们可以直观地认识到,类型 1 hnPINN 的
C
‖
∇
L
‖
(
α
u
)
C
‖
∇
L
‖
α
u
C_(||gradL||)(alpha_(u)) C_{\|\nabla \mathcal{L}\|}\left(\alpha_{u}\right) 的满意范围将远高于类型 2 hnPINN 的满意范围。在本研究中,对于类型 1 和类型 2 hnPINN,我们启发式地建议
[
C
―
‖
∇
L
‖
,
C
¯
‖
∇
L
‖
]
C
_
‖
∇
L
‖
,
C
¯
‖
∇
L
‖
[C__(||gradL||), bar(C)_(||gradL||)] \left[\underline{C}_{\|\nabla \mathcal{L}\|}, \bar{C}_{\|\nabla \mathcal{L}\|}\right] 分别为
[
k
+
1
,
k
+
100
]
[
k
+
1
,
k
+
100
]
[k+1,k+100] [k+1, k+100] 和
[
0.001
,
0.1
]
[
0.001
,
0.1
]
[0.001,0.1] [0.001,0.1] ,其中
k
k
k k 是相关 PDE 的微分阶数。因此,合适的
α
u
∈
[
α
―
u
α
¯
u
]
α
u
∈
α
_
u
α
¯
u
alpha_(u)in[alpha __(u) bar(alpha)_(u)] \alpha_{u} \in\left[\underline{\alpha}_{u} \bar{\alpha}_{u}\right] 可以通过
α
u
−
C
‖
∇
L
‖
α
u
−
C
‖
∇
L
‖
alpha_(u)-C_(||gradL||) \alpha_{u}-C_{\|\nabla \mathcal{L}\|} 曲线确定。由于
α
u
α
u
alpha_(u) \alpha_{u} 与
C
‖
∇
L
‖
C
‖
∇
L
‖
C_(||gradL||) C_{\|\nabla \mathcal{L}\|} 的值呈指数倍增,因此建议采用一种经济的调整策略,即
α
u
α
u
alpha_(u) \alpha_{u} 应从边界
[
α
―
u
,
α
¯
u
]
α
_
u
,
α
¯
u
[alpha __(u), bar(alpha)_(u)] \left[\underline{\alpha}_{u}, \bar{\alpha}_{u}\right] 开始呈指数倍增,直至获得足够的训练性能。 算法 2 详细描述了根据
α
u
−
C
‖
∇
L
‖
α
u
−
C
‖
∇
L
‖
alpha_(u)-C_(||gradL||) \alpha_{u}-C_{\|\nabla \mathcal{L}\|} 曲线和边界
[
C
―
‖
∇
L
‖
,
C
¯
‖
∇
L
‖
]
C
_
‖
∇
L
‖
,
C
¯
‖
∇
L
‖
[C__(||gradL||), bar(C)_(||gradL||)] \left[\underline{C}_{\|\nabla \mathcal{L}\|}, \bar{C}_{\|\nabla \mathcal{L}\|}\right] 校准
α
u
α
u
alpha_(u) \alpha_{u} 的拟议方法。值得注意的是,对于本研究中的大多数问题,只需进行粗调即可获得令人满意的
α
u
α
u
alpha_(u) \alpha_{u} 。因此,基于算法 2 的
α
u
α
u
alpha_(u) \alpha_{u} 调整尝试在实践中肯定是经济而有益的。算法 3 最后总结了选择合适的二次输出缩放器
α
u
α
u
alpha_(u) \alpha_{u} 的整个过程。在第 3.4.3 节中,将通过一个具有不同系数的具体问题来说明如何通过算法 3 选择合适的
α
u
α
u
alpha_(u) \alpha_{u} 及其大小如何影响 hnPINN 的训练性能。
3.4.一个玩具问题
在本节中,我们使用一个简单的 BVP 案例来研究悬臂杆在压缩载荷下的行为,以实际说明 vanilla PINN 的局限性、DNN 宽度对 PINN 训练过程的影响、二级标度器的重要性及其选择程序对 hnPINN 性能的影响。问题定义如下
a
d
2
u
d
x
2
=
f
,
x
∈
(
0
,
L
)
u
(
L
)
=
0
a
d
u
(
0
)
d
x
=
h
a
d
2
u
d
x
2
=
f
,
x
∈
(
0
,
L
)
u
(
L
)
=
0
a
d
u
(
0
)
d
x
=
h
{:[a(d^(2)u)/(dx^(2))=f","x in(0","L)],[u(L)=0],[a(du(0))/(dx)=h]:} \begin{aligned}
a \frac{d^{2} u}{d x^{2}} & =f, x \in(0, L) \\
u(L) & =0 \\
a \frac{d u(0)}{d x} & =h
\end{aligned}
其中
a
,
f
a
,
f
a,f a, f 和
h
h
h h 为常数,
a
,
f
,
h
∈
R
a
,
f
,
h
∈
R
a,f,h inR a, f, h \in \mathbb{R} 为常数。PINN 损失函数的定义类似于 (9),其中
L
D
=
1
N
D
∑
i
=
1
N
D
[
a
d
2
u
^
(
x
i
)
d
x
2
−
f
]
2
,
x
i
∈
(
0
,
L
)
L
D
=
1
N
D
∑
i
=
1
N
D
a
d
2
u
^
x
i
d
x
2
−
f
2
,
x
i
∈
(
0
,
L
)
L_(D)=(1)/(N_(D))sum_(i=1)^(N_(D))[a(d^(2)( hat(u))(x_(i)))/(dx^(2))-f]^(2),x_(i)in(0,L) \mathcal{L}_{D}=\frac{1}{N_{D}} \sum_{i=1}^{N_{D}}\left[a \frac{d^{2} \hat{u}\left(x_{i}\right)}{d x^{2}}-f\right]^{2}, x_{i} \in(0, L)
L
B
1
=
u
^
(
L
)
2
L
B
1
=
u
^
(
L
)
2
L_(B1)= hat(u)(L)^(2) \mathcal{L}_{B 1}=\hat{u}(L)^{2}
L
B
2
=
[
a
d
u
^
(
0
)
d
x
−
h
]
2
L
B
2
=
a
d
u
^
(
0
)
d
x
−
h
2
L_(B2)=[a(d( hat(u))(0))/(dx)-h]^(2) \mathcal{L}_{B 2}=\left[a \frac{d \hat{u}(0)}{d x}-h\right]^{2}
在训练过程中测量损失梯度
∞
∞
oo \infty 正态值
∇
θ
L
∇
θ
L
grad_(theta)L \nabla_{\theta} \mathcal{L} 和相对误差
L
2
L
2
L_(2) L_{2} ,以研究 PDE 系数和域大小对 PINN 精度的影响。预测
u
^
u
^
hat(u) \hat{\mathbf{u}} 与目标解
u
u
u \mathbf{u} 之间的相对
L
2
L
2
L_(2) L_{2} 误差由以下公式确定
δ
L
2
=
‖
u
^
−
u
‖
2
‖
u
‖
2
δ
L
2
=
‖
u
^
−
u
‖
2
‖
u
‖
2
delta_(L_(2))=(||( hat(u))-u||_(2))/(||u||_(2)) \delta_{L_{2}}=\frac{\|\hat{\mathbf{u}}-\mathbf{u}\|_{2}}{\|\mathbf{u}\|_{2}} 其中
‖
⋅
‖
2
‖
⋅
‖
2
||*||_(2) \|\cdot\|_{2} 定义了
L
2
L
2
L_(2) L_{2} 正算子。本节中的所有实验均采用无动量或学习率衰减的全批 GD 算法。此外,在计算 PINN 损失函数时,使用了从内域均匀生成的 1000 个定位点。
3.4.1.非条件损失函数现象
本节将对问题 (35) 的两次试验的训练动态进行研究,以明确 PDE 系数和问题域大小对 PINN 模型训练效率的影响。第一次试验中,
L
=
1
,
f
=
−
0.0005
L
=
1
,
f
=
−
0.0005
L=1,f=-0.0005 L=1, f=-0.0005 和
h
=
50
h
=
50
h=50 h=50 是固定的,
a
=
{
1
,
10
,
100
,
1000
}
a
=
{
1
,
10
,
100
,
1000
}
a={1,10,100,1000} a=\{1,10,100,1000\} 是变化的。第二个测试中,
a
=
10
a
=
10
a=10 a=10 、
f
=
−
0.0005
f
=
−
0.0005
f=-0.0005 f=-0.0005 和
h
=
50
h
=
50
h=50 h=50 被设定,
L
=
{
0.1
,
1
,
10
}
L
=
{
0.1
,
1
,
10
}
L={0.1,1,10} L=\{0.1,1,10\} 被分配。采用全批量 GD 方法训练具有 500 个节点、带有 tanh 激活函数的大宽度浅层 MLP,学习率为 0.01。第一次和第二次测试的最大历元数分别为 2000 和 8000。考虑到第一次试验的训练动态(如图 1(a)-1(b) 所示),
∞
∞
oo \infty 的正态值
∇
θ
L
∇
θ
L
grad_(theta)L \nabla_{\boldsymbol{\theta}} \mathcal{L} 在第一个epochs分别随着
a
a
a a 的增量而扩大。尤其是
a
=
1000
a
=
1000
a=1000 a=1000 的
‖
∇
θ
L
‖
∞
∇
θ
L
∞
||grad_(theta)L||_(oo) \left\|\nabla_{\theta} \mathcal{L}\right\|_{\infty} 值出现了超调,而对于
a
=
{
10
,
100
}
a
=
{
10
,
100
}
a={10,100} a=\{10,100\} 的情况,如图 1(b) 所示,它们在最初的几个历元后处于适当的范围内,因此训练过程在迭代中变得稳定。而
a
=
1
,
‖
∇
θ
L
‖
∞
a
=
1
,
∇
θ
L
∞
a=1,||grad_(theta)L||_(oo) a=1,\left\|\nabla_{\theta} \mathcal{L}\right\|_{\infty} 在第一阶段似乎太小,从而降低了训练收敛速度。图 1©证明了上述讨论,在图 1©中,对于
a
=
{
10
,
100
}
a
=
{
10
,
100
}
a={10,100} a=\{10,100\} 的情况,GD 算法仅用了 400 个历时就迅速接近了精确结果,而对于
a
=
1000
a
=
1000
a=1000 a=1000 则出现了偏离,对于
a
=
1
a
=
1
a=1 a=1 则收敛速度非常慢。因此,第一次实验表明,虚无 PINN 方法对 PDE 系数值非常敏感。
图 2 显示了 PINN 方法在训练过程中获得的有关第二次测试的不同
L
L
L L 的
‖
∇
θ
L
‖
∞
∇
θ
L
∞
||grad_(theta)L||_(oo) \left\|\nabla_{\theta} \mathcal{L}\right\|_{\infty} 大小和相对
L
2
L
2
L_(2) L_{2} 误差。从图 2(a) 和 2(b) 可以看出,第一阶段
L
=
10
L
=
10
L=10 L=10 的
‖
∇
θ
L
‖
∞
∇
θ
L
∞
||grad_(theta)L||_(oo) \left\|\nabla_{\theta} \mathcal{L}\right\|_{\infty} 值远远高于
L
=
{
0.1
,
1
}
L
=
{
0.1
,
1
}
L={0.1,1} L=\{0.1,1\} 的
‖
∇
θ
L
‖
∞
∇
θ
L
∞
||grad_(theta)L||_(oo) \left\|\nabla_{\theta} \mathcal{L}\right\|_{\infty} 值。这导致 PINN 方法无法收敛到图 2© 所示的
L
=
10
L
=
10
L=10 L=10 情况下的正确解。上述两个实验结果,一方面证实了定理 3.2 及其推论 3.2.1 的理论预测,另一方面也暴露了传统 PINN 方法在求解各种系数和域大小的 PDE 问题时的弱点。因此,我们认识到,在实际应用 PINN 方法求解 PDE 时,减小 PDE 系数和域大小的影响至关重要。
3.4.2.神经网络宽度的重要性
推论 3.2.1 意味着,当浅 MLP 宽度
N
N
N N 渐近无穷大时,式 (9)-(10) 中损失函数的梯度流与参数
f
,
g
f
,
g
f,g f, g 和
h
h
h h 无关。在这一部分中,我们进行了有关该预测的实验,其中采用学习率为 0.01 的 GD 方法,使用
N
=
{
30
,
100
,
500
}
N
=
{
30
,
100
,
500
}
N={30,100,500} N=\{30,100,500\} 的 MLP 解决问题 (35)。
a
=
10
,
L
=
1
a
=
10
,
L
=
1
a=10,L=1 a=10, L=1 和
h
=
50
h
=
50
h=50 h=50 为预定值,
f
f
f f 在
[
1
,
50
]
[
1
,
50
]
[1,50] [1,50] 的范围内变化。从图 3(a) 中可以看出,PINN 求解精度随
N
N
N N 的增大而提高,其中 PINN 方法在
f
=
10
f
=
10
f=10 f=10 与
N
=
30
N
=
30
N=30 N=30 和
f
=
50
f
=
50
f=50 f=50 与
N
=
100
N
=
100
N=100 N=100 时失效。当
N
=
500
N
=
500
N=500 N=500 时,PINN 成功地为
f
f
f f 的所有情况找到了令人满意的解。上述观察结果实际表明,在不同的
f
f
f f 值下,大宽度 NN 对 PINN 性能的影响至关重要。
从定理 3.2 可以看出,在处理
f
f
f f 的高值时,GD 算法可能会产生非常大的更新步长。
Algorithm 2 Calibrating secondary output scaler \(\alpha_{u}\)
Require: \(\alpha_{u}-C_{\|\nabla \mathcal{L}\|}\) curve, \(\left[\underline{C}_{\|\nabla \mathcal{L}\|}, \bar{C}_{\|\nabla \mathcal{L}\|}\right]\)
\(\underline{P}_{c} \leftarrow \ln \left(\underline{C}_{\|\nabla \mathcal{L}\|}\right), \bar{P}_{c} \leftarrow \ln \left(\bar{C}_{\|\nabla \mathcal{L}\|}\right), t \leftarrow 1\)
\(P_{c}^{(t)} \leftarrow \frac{\underline{P}_{c}+\bar{P}_{c}}{2}, C_{\|\nabla \mathcal{L}\|}^{(t)} \leftarrow e^{P_{c}^{(t)}}\)
\(\alpha_{u}^{(t)} \leftarrow C_{\|\nabla \mathcal{L}\|}^{-1}\left(C_{\|\nabla \mathcal{L}\|}^{(t)}\right)\) by calculation or tracking \(C_{\|\nabla \mathcal{L}\|}^{(t)}\) value from \(\alpha_{u}-C_{\|\nabla \mathcal{L}\|}\) curve
Train hnPINN model using \(\alpha_{u}^{(t)}\)
while not end of tuning procedure do
\(t \leftarrow t+1\)
if \(\overline{h n}_{\bar{P}}\) PINN training process is unstable then
\(\bar{P}_{c} \leftarrow P_{c}^{(t-1)}\)
else if hnPINN training process is slow then
\(\underline{P}_{c} \leftarrow P_{c}^{(t-1)}\)
end if
\(P_{c}^{(t)} \leftarrow \frac{\underline{P}_{c}+\bar{P}_{c}}{2}, C_{\|\nabla \mathcal{D}\|}^{(t)} \leftarrow e^{P_{c}^{(t)}}\)
\(\alpha_{u}^{(t)} \leftarrow C_{\|\nabla \mathcal{L}\|}^{-1}\left(C_{\|\nabla \mathcal{L}\|}^{(t)}\right)\) by calculation or tracking \(C_{\|\nabla \mathcal{L}\|}^{(t)}\) value from \(\alpha_{u}-C_{\|\nabla \mathcal{L}\|}\) curve
Train hnPINN model using \(\alpha_{u}^{(t)}\)
if hnPINN performance is satisfactory then
End tuning procedure
else
Continue tuning procedure
end if
end while
return \(\alpha_{u} \leftarrow \alpha_{u}^{(t)} \quad \triangleright\) Optimal \(\alpha_{u}\)
算法 3 二级输出缩放器的优化选择
α
u
α
u
alpha_(u) \alpha_{u} 要求分级规范化表格(类型 1 (22) 或类型 2 (23) 1: 根据公式 (32) - (33) 确定梯度边界特征
C
‖
∇
L
‖
(
α
u
)
C
‖
∇
L
‖
α
u
C_(||gradL||)(alpha_(u)) C_{\|\nabla \mathcal{L}\|}\left(\alpha_{u}\right) 确定
α
u
−
C
‖
∇
L
‖
α
u
−
C
‖
∇
L
‖
alpha_(u)-C_(||gradL||) \alpha_{u}-C_{\|\nabla \mathcal{L}\|} 曲线 确定
[
C
―
‖
∇
L
‖
,
C
¯
‖
∇
L
‖
]
C
_
‖
∇
L
‖
,
C
¯
‖
∇
L
‖
[C__(||gradL||), bar(C)_(||gradL||)] \left[\underline{C}_{\|\nabla \mathcal{L}\|}, \bar{C}_{\|\nabla \mathcal{L}\|}\right] 范围
▹
[
k
+
1
,
k
+
100
]
▹
[
k
+
1
,
k
+
100
]
quad▹[k+1,k+100] \quad \triangleright[k+1, k+100] 为 1 型,
[
0.001
,
0.1
]
[
0.001
,
0.1
]
[0.001,0.1] [0.001,0.1] 为 2 型 根据
α
u
−
C
‖
∇
L
‖
α
u
−
C
‖
∇
L
‖
alpha_(u)-C_(||gradL||) \alpha_{u}-C_{\|\nabla \mathcal{L}\|} 曲线确定
[
α
―
u
,
α
¯
u
]
α
_
u
,
α
¯
u
[alpha __(u), bar(alpha)_(u)] \left[\underline{\alpha}_{u}, \bar{\alpha}_{u}\right] 与
[
C
―
‖
∇
L
‖
,
C
¯
‖
∇
L
‖
]
C
_
‖
∇
L
‖
,
C
¯
‖
∇
L
‖
[C__(||gradL||), bar(C)_(||gradL||)] \left[\underline{C}_{\|\nabla \mathcal{L}\|}, \bar{C}_{\|\nabla \mathcal{L}\|}\right] 之间的范围 通过算法 2 校准
α
u
∈
[
α
―
u
,
α
¯
u
]
α
u
∈
α
_
u
,
α
¯
u
alpha_(u)in[alpha __(u), bar(alpha)_(u)] \alpha_{u} \in\left[\underline{\alpha}_{u}, \bar{\alpha}_{u}\right] 以达到最优值 返回
α
u
α
u
alpha_(u) \alpha_{u}
▹
▹
▹ \triangleright 二级输出缩放器
图 1.在
a
a
a a 变化的情况下,损失梯度
‖
∇
θ
L
‖
∞
∇
θ
L
∞
||grad_(theta)L||_(oo) \left\|\nabla_{\theta} \mathcal{L}\right\|_{\infty} 和相对
L
2
L
2
L_(2) L_{2} 误差
δ
L
2
δ
L
2
delta_(L_(2)) \delta_{L_{2}} 的
∞
∞
oo \infty 正态与历时的函数关系。 如果网络宽度
N
N
N N 没有相应地增大,
‖
∇
L
D
‖
∞
∇
L
D
∞
||gradL_(D)||_(oo) \left\|\nabla \mathcal{L}_{\mathcal{D}}\right\|_{\infty} 就会增大,从而使训练过程不稳定或发散。图 3(b) 显示了所考虑的 PINN 模型在
f
=
50
f
=
50
f=50 f=50 时的训练动态,证实了这一点。从图 3(b) 中可以看出,使用
N
=
{
30
,
100
}
N
=
{
30
,
100
}
N={30,100} N=\{30,100\} 训练 PINN 模型时,
‖
∇
L
D
‖
∞
∇
L
D
∞
||gradL_(D)||_(oo) \left\|\nabla \mathcal{L}_{\mathcal{D}}\right\|_{\infty} 的幅度过大,从而破坏了这些优化过程,而使用
N
=
500
N
=
500
N=500 N=500 的 PINN 梯度流基本稳定,并最终在训练过程结束时收敛。传统 PINN 方法的上述限制极大地推动了 hnPINN 方法在解决非复杂问题时的应用。
PDE 问题,而无需使用大宽度 NN,以节省训练和实施成本。
3.4.3.次级输出扩展器的影响
本节选择 1 型 hnPINN 方法来求解问题 (35)。为了说明次级输出标度
α
u
α
u
alpha_(u) \alpha_{u} 的位置及其选择框架的有效性,我们在三个实验中考虑了具有不同幅度标度的右项
f
f
f f 和
h
h
h h 。具体来说,参数
a
=
10
5
,
L
=
1
a
=
10
5
,
L
=
1
a=10^(5),L=1 a=10^{5}, L=1 是固定的,三对
f
f
f f 和
h
h
h h 包括
{
0.0005
,
50
}
,
{
500
,
0.0005
}
{
0.0005
,
50
}
,
{
500
,
0.0005
}
{0.0005,50},{500,0.0005} \{0.0005,50\},\{500,0.0005\} .
图 2.<在
L
L
L L 变化的情况下,损失梯度
‖
∇
θ
L
‖
∞
∇
θ
L
∞
||grad_(theta)L||_(oo) \left\|\nabla_{\theta} \mathcal{L}\right\|_{\infty} 和相对
L
2
L
2
L_(2) L_{2} 误差
δ
L
2
δ
L
2
delta_(L_(2)) \delta_{L_{2}} 与时程的函数关系。
图 3.在
f
f
f f 变化下,不同 NN 宽度的相对
L
2
L
2
L_(2) L_{2} 误差
δ
L
2
δ
L
2
delta_(L_(2)) \delta_{L_{2}} 和损耗梯度
∞
∞
oo \infty 正态
‖
∇
θ
L
‖
∞
∇
θ
L
∞
||grad_(theta)L||_(oo) \left\|\nabla_{\theta} \mathcal{L}\right\|_{\infty} 。
图 4.第 1 次实验中,
α
u
−
C
‖
∇
L
‖
α
u
−
C
‖
∇
L
‖
alpha_(u)-C_(||gradL||) \alpha_{u}-C_{\|\nabla \mathcal{L}\|} 曲线、
∞
∞
oo \infty 损失梯度正态
‖
∇
θ
L
‖
∞
∇
θ
L
∞
||grad_(theta)L||_(oo) \left\|\nabla_{\theta} \mathcal{L}\right\|_{\infty} 和相对
L
2
L
2
L_(2) L_{2} 误差
δ
L
2
δ
L
2
delta_(L_(2)) \delta_{L_{2}} 与时间的函数关系。 和
{
0.05
,
0.05
}
{
0.05
,
0.05
}
{0.05,0.05} \{0.05,0.05\} 分别用于第一、第二和第三次实验。实验采用 50 个节点的全连接浅层 MLP 结构,并使用 tanh 激活函数。三次实验均采用学习率为 0.001 的 GD 算法。
图 4 显示了第一次检查的损耗梯度边界
α
u
−
C
‖
∇
L
‖
α
u
−
C
‖
∇
L
‖
alpha_(u)-C_(||gradL||) \alpha_{u}-C_{\|\nabla \mathcal{L}\|} 曲线和收敛历程,以及相对误差
L
2
L
2
L_(2) L_{2} 。如图 4(a)所示,在这种情况下,二次标度
[
α
―
u
,
α
¯
u
]
α
_
u
,
α
¯
u
[alpha __(u), bar(alpha)_(u)] \left[\underline{\alpha}_{u}, \bar{\alpha}_{u}\right] 的边界为
[
1
,
100
]
[
1
,
100
]
[1,100] [1,100] 。可以看出,hnPINN 训练过程在
α
u
=
0.1
α
u
=
0.1
alpha_(u)=0.1 \alpha_{u}=0.1 处出现了偏离,因为这个
α
u
α
u
alpha_(u) \alpha_{u} 超出了允许范围。然而,当
α
u
=
10
α
u
=
10
alpha_(u)=10 \alpha_{u}=10 时,hnPINN 模型的收敛速度非常慢,这表明最佳
α
u
α
u
alpha_(u) \alpha_{u} 必须小于 10。图 4(b) 还显示,在
α
u
=
0.1
α
u
=
0.1
alpha_(u)=0.1 \alpha_{u}=0.1 时,
‖
∇
θ
L
‖
∞
∇
θ
L
∞
||grad_(theta)L||_(oo) \left\|\nabla_{\theta} \mathcal{L}\right\|_{\infty} 显著增大,而在
α
u
=
10
α
u
=
10
alpha_(u)=10 \alpha_{u}=10 时,
‖
∇
θ
L
‖
∞
∇
θ
L
∞
||grad_(theta)L||_(oo) \left\|\nabla_{\theta} \mathcal{L}\right\|_{\infty} 显著减小,这分别破坏了这些
α
u
α
u
alpha_(u) \alpha_{u} 设置下的 hnPINN 学习过程并减缓了其速度。通过算法 3 调整
α
u
α
u
alpha_(u) \alpha_{u} 提供了最优
α
u
=
1
α
u
=
1
alpha_(u)=1 \alpha_{u}=1 ,与上述两种方案相比,hnPINN 模型的结果最好,如图 4© 所示。这也意味着 ndPINN 方法成功地解决了第一种设置下的问题 (35)。
如图 5-6 所示,在第二和第三次实验中观察到了 hnPINN 的卓越性能。可以看出,在解决这些问题时,hnPINN 成功收敛于算法 3 估计的
α
u
=
50
α
u
=
50
alpha_(u)=50 \alpha_{u}=50 和
α
u
=
0.005
α
u
=
0.005
alpha_(u)=0.005 \alpha_{u}=0.005 值。需要强调的是,根据图 5(a) 和图 6(a),在这两种情况下,
α
u
=
1
α
u
=
1
alpha_(u)=1 \alpha_{u}=1 值都超出了
[
α
―
u
,
α
¯
u
]
α
_
u
,
α
¯
u
[alpha __(u), bar(alpha)_(u)] \left[\underline{\alpha}_{u}, \bar{\alpha}_{u}\right] 的范围。这就导致了 ndPINN 不适合这些情况,造成了图 5(b)-6(b) 所示的 ndPINN 梯度流的爆炸和消失。上述结果显然证实了基于算法 3 选择
α
u
α
u
alpha_(u) \alpha_{u} 的成功,以及
α
u
α
u
alpha_(u) \alpha_{u} 在 hnPINN 方法中的关键作用。
图 5.第 2 次实验的
α
u
−
C
‖
∇
L
‖
α
u
−
C
‖
∇
L
‖
alpha_(u)-C_(||gradL||) \alpha_{u}-C_{\|\nabla \mathcal{L}\|} 曲线、损失梯度
‖
∇
θ
L
‖
∞
∇
θ
L
∞
||grad_(theta)L||_(oo) \left\|\nabla_{\theta} \mathcal{L}\right\|_{\infty} 的
∞
∞
oo \infty 正态值和相对
L
2
L
2
L_(2) L_{2} 误差
δ
L
2
δ
L
2
delta_(L_(2)) \delta_{L_{2}} 与历时的函数关系。
图 6.第 3 次实验的
α
u
−
C
‖
∇
L
‖
α
u
−
C
‖
∇
L
‖
alpha_(u)-C_(||gradL||) \alpha_{u}-C_{\|\nabla \mathcal{L}\|} 曲线、损失梯度
‖
∇
θ
L
‖
∞
∇
θ
L
∞
||grad_(theta)L||_(oo) \left\|\nabla_{\theta} \mathcal{L}\right\|_{\infty} 的
∞
∞
oo \infty 正态值和相对
L
2
L
2
L_(2) L_{2} 误差
δ
L
2
δ
L
2
delta_(L_(2)) \delta_{L_{2}} 与历时的函数关系。
4.数值实验
在本节中,我们将探讨所提出的 hnPINN 与 vanilla PINN 和 ndPINN 相比在求解高阶 PDE 方面的有效性。首先,典型的固体力学问题是通过参数研究来深入比较 PINN、ndPINN 和 hnPINN 的。值得注意的是,由于原始 PINN 性能较差,本部分仅对其进行了报告。然后,考虑了具有高频解的一维泊松问题,以研究 PINN 模型在频谱偏差现象下的性能。最后,应用四个基准来证明所提出的 hnPINN 在模拟固体力学中的 PDE 问题时的性能。我们还将 hnPINN 的预测结果与高保真有限元法在这些情况下获得的结果进行了比较。
为了进行公平比较,我们对所有考虑的 PINN 方法都固定了随机种子,以避免随机性对其性能的影响,并收集了 10 次独立运行后的统计结果。每个示例都报告了 PINN 模型相对
L
2
L
2
L_(2) L_{2} 误差的平均值和置信区间。全连接 MLP 架构包括 3 个隐藏层,每个隐藏层有 40 个节点,所有问题均使用 tanh 激活函数。所有 DNN 模型均采用 LBFGS(Nocedal,1980 年)和 Adam(Kingma 和 Ba,2017 年)或 Adam 与 LBFGS 的组合(命名为 Adam-LBFGS)进行训练,其中 Adam-LBFGS 在任何考虑的问题上表现不佳时都会采用。在 Adam-LBFGS 算法中,首先在
80
%
80
%
80% 80 \% 训练过程中使用 Adam,然后应用 LBFGS 来完善解决方案。Adam 优化器采用连续衰减的学习率计划,如下所示
μ
t
=
μ
0
1
+
λ
t
μ
t
=
μ
0
1
+
λ
t
mu_(t)=(mu_(0))/(1+lambda t) \mu_{t}=\frac{\mu_{0}}{1+\lambda t} 其中,
t
t
t t 表示训练过程的当前历元,
μ
0
=
0.001
μ
0
=
0.001
mu_(0)=0.001 \mu_{0}=0.001 和
λ
=
0.001
λ
=
0.001
lambda=0.001 \lambda=0.001 分别为初始学习率和衰减系数。公式 (3)(4) 中的传统均方损失函数用于所考虑的 PINN 方法,其中搭配 点在结构的物理区域内均匀分布。训练方法所使用的最大历元数取决于每种类型和每个问题。
本节所获得的数值结果证明,就若干问题类型而言,hnPINN 在求解精度、收敛速度和性能稳定性方面均优于两种 PINN 和 ndPINN。此外,与使用细网格的相应有限元解法相比,所提出的方法也取得了更好的结果。hnPINN 的上述效率通过实验证明如下。
4.1.敏感性分析
本节研究了普通 PINN、ndPINN 和所提出的 hnPINN 在 PDE 系数、物理域大小、DNN 大小和定位点数量影响下的性能。灵敏度分析是在一个简单的静态问题上进行的,在这个问题中,一根杆在体力和外力作用下被压缩(简称为压缩杆问题)。附录 B.1 提到了这个问题。采用了 1 型 hnPINN,其针对压缩棒问题的分层归一化形式如下
d
2
u
¯
d
x
¯
2
=
−
g
A
α
u
,
x
¯
∈
(
0
,
L
X
0
)
d
2
u
¯
d
x
¯
2
=
−
g
A
α
u
,
x
¯
∈
0
,
L
X
0
(d^(2)( bar(u)))/(d bar(x)^(2))=-(gA)/(alpha_(u)), bar(x)in(0,(L)/(X_(0))) \frac{d^{2} \bar{u}}{d \bar{x}^{2}}=-\frac{g A}{\alpha_{u}}, \bar{x} \in\left(0, \frac{L}{X_{0}}\right)
u
¯
(
L
X
0
)
=
0
u
¯
L
X
0
=
0
bar(u)((L)/(X_(0)))=0 \bar{u}\left(\frac{L}{X_{0}}\right)=0
d
u
¯
(
0
)
d
x
¯
=
−
P
X
0
α
u
E
A
U
0
d
u
¯
(
0
)
d
x
¯
=
−
P
X
0
α
u
E
A
U
0
(d( bar(u))(0))/(d( bar(x)))=(-PX_(0))/(alpha_(u)EAU_(0)) \frac{d \bar{u}(0)}{d \bar{x}}=\frac{-P X_{0}}{\alpha_{u} E A U_{0}} 其中,主标度
X
0
=
L
,
U
0
=
X
0
2
E
A
X
0
=
L
,
U
0
=
X
0
2
E
A
X_(0)=L,U_(0)=(X_(0)^(2))/(EA) X_{0}=L, U_{0}=\frac{X_{0}^{2}}{E A} 是为两种归一化 PINN 方法选择的。次缩放器
α
u
=
α
u
=
alpha_(u)= \alpha_{u}=
max
{
|
g
a
|
,
|
−
P
X
0
E
A
U
0
|
}
max
|
g
a
|
,
−
P
X
0
E
A
U
0
max{|ga|,|(-PX_(0))/(EAU_(0))|} \max \left\{|g a|,\left|\frac{-P X_{0}}{E A U_{0}}\right|\right\} 和
α
u
=
1
α
u
=
1
alpha_(u)=1 \alpha_{u}=1 分别用于 hnPINN 和 ndPINN。值得注意的是,1 型 hnPINN 的
α
u
α
u
alpha_(u) \alpha_{u}