这是用户在 2024-9-24 21:26 为 https://app.immersivetranslate.com/pdf-pro/841db0fb-7fcc-4f12-bf76-d016f7edf0be 保存的双语快照页面,由 沉浸式翻译 提供双语支持。了解如何保存?

 第四章

 样条曲线


在第三章中,我们看到足够大的神经网络可以以任意精度逼近每个连续函数。然而,这些结果对“足够大”的含义以及合适架构的选择提供了很少的见解。理想情况下,给定一个函数 f f ff 和期望的精度 ε > 0 ε > 0 epsi > 0\varepsilon>0 ,我们希望对所需的大小、深度和宽度有一个(可能是严格的)界限,以保证存在一个神经网络可以逼近 f f ff ,误差不超过 ε ε epsi\varepsilon

逼近理论领域建立了函数 f f ff (例如,其光滑性)、逼近精度和实现该精度所需参数数量之间的权衡。例如,给定 k , d N k , d N k,d inNk, d \in \mathbb{N} ,需要多少个参数才能将函数 f : [ 0 , 1 ] d R f : [ 0 , 1 ] d R f:[0,1]^(d)rarrRf:[0,1]^{d} \rightarrow \mathbb{R} 近似到均匀误差 ε ε epsi\varepsilon ?已知样条函数可以通过 O ( ε d / k ) O ε d / k O(epsi^(-d//k))O\left(\varepsilon^{-d / k}\right) 个简单(分段多项式)基函数的叠加来实现这种逼近精度。在本章中,参考[144],我们展示了某些 S 型神经网络在神经网络规模方面可以匹配这种性能。实际上,从逼近理论的角度来看,我们证明了所考虑的神经网络至少与样条函数的叠加同样具有表达能力。


4.1 B 样条和光滑函数


我们在下面介绍一种简单的样条及其逼近性质。

定义 4.1。对于 n N n N n inNn \in \mathbb{N} ,单变量基数 B 样条的阶数 n N n N n inNn \in \mathbb{N} 由以下公式给出:
S n ( x ) := 1 ( n 1 ) ! = 0 n ( 1 ) ( n ) σ ReLU ( x ) n 1 for x R S n ( x ) := 1 ( n 1 ) ! = 0 n ( 1 ) ( n ) σ ReLU ( x ) n 1  for  x R S_(n)(x):=(1)/((n-1)!)sum_(ℓ=0)^(n)(-1)^(ℓ)((n)/(ℓ))sigma_(ReLU)(x-ℓ)^(n-1)quad" for "x inR\mathcal{S}_{n}(x):=\frac{1}{(n-1)!} \sum_{\ell=0}^{n}(-1)^{\ell}\binom{n}{\ell} \sigma_{\operatorname{ReLU}}(x-\ell)^{n-1} \quad \text { for } x \in \mathbb{R}

其中 0 0 := 0 0 0 := 0 0^(0):=00^{0}:=0 σ ReLU σ ReLU sigma_(ReLU)\sigma_{\mathrm{ReLU}} 表示 ReLU 激活函数。

通过平移和扩展基数 B 样条,我们获得了一组单变量样条。对这些单变量样条进行张量积运算,得到一组称为多变量 B 样条的高维函数。

定义 4.2。对于 t R t R t inRt \in \mathbb{R} n , N n , N n,ℓinNn, \ell \in \mathbb{N} ,我们定义 S , t , n := S n ( 2 ( t ) ) S , t , n := S n 2 ( t ) S_(ℓ,t,n):=S_(n)(2^(ℓ)(*-t))\mathcal{S}_{\ell, t, n}:=\mathcal{S}_{n}\left(2^{\ell}(\cdot-t)\right) 。此外,对于 d N d N d inNd \in \mathbb{N} t R d t R d t inR^(d)\boldsymbol{t} \in \mathbb{R}^{d} n , N n , N n,ℓinNn, \ell \in \mathbb{N} ,我们将多元 B 样条 S , t , n d S , t , n d S_(ℓ,t,n)^(d)\mathcal{S}_{\ell, t, n}^{d} 定义为
S , t , n d ( x ) := i = 1 d S , t i , n ( x i ) for x = ( x 1 , x d ) R d S , t , n d ( x ) := i = 1 d S , t i , n x i  for  x = x 1 , x d R d S_(ℓ,t,n)^(d)(x):=prod_(i=1)^(d)S_(ℓ,t_(i),n)(x_(i))quad" for "x=(x_(1),dotsx_(d))inR^(d)\mathcal{S}_{\ell, t, n}^{d}(\boldsymbol{x}):=\prod_{i=1}^{d} \mathcal{S}_{\ell, t_{i}, n}\left(x_{i}\right) \quad \text { for } \boldsymbol{x}=\left(x_{1}, \ldots x_{d}\right) \in \mathbb{R}^{d}
 
B n := { S , t , n d N , t R d } B n := S , t , n d N , t R d B^(n):={S_(ℓ,t,n)^(d)∣ℓinN,t inR^(d)}\mathcal{B}^{n}:=\left\{\mathcal{S}_{\ell, t, n}^{d} \mid \ell \in \mathbb{N}, \boldsymbol{t} \in \mathbb{R}^{d}\right\}

是阶数为 n n nn 的 B 样条字典。

引入系统 B n B n B^(n)\mathcal{B}^{n} 后,我们希望了解如何通过 B n B n B^(n)\mathcal{B}^{n} 的元素的叠加来很好地表示每个光滑函数。以下定理是从更一般的结果[166,定理 7]中改编而来;另见[139,定理 D.3],以获得更接近当前表述的内容。

定理 4.3. 设 d , n , k N d , n , k N d,n,k inNd, n, k \in \mathbb{N} 使得 0 < k n 0 < k n 0 < k <= n0<k \leq n 。则存在 C C CC 使得对于每个 f C k ( [ 0 , 1 ] d ) f C k [ 0 , 1 ] d f inC^(k)([0,1]^(d))f \in C^{k}\left([0,1]^{d}\right) 和每个 N N N N N inNN \in \mathbb{N} ,存在 c i R c i R c_(i)inRc_{i} \in \mathbb{R} 使得 | c i | C f L ( [ 0 , 1 ] d ) c i C f L [ 0 , 1 ] d |c_(i)| <= C||f||_(L^(oo)([0,1]^(d)))\left|c_{i}\right| \leq C\|f\|_{L^{\infty}\left([0,1]^{d}\right)} B i B n B i B n B_(i)inB^(n)B_{i} \in \mathcal{B}^{n} 对于 i = 1 , , N i = 1 , , N i=1,dots,Ni=1, \ldots, N ,满足
f i = 1 N c i B i L ( [ 0 , 1 ] d ) C N k d f C k [ 0 , 1 ] d f i = 1 N c i B i L [ 0 , 1 ] d C N k d f C k [ 0 , 1 ] d ||f-sum_(i=1)^(N)c_(i)B_(i)||_(L^(oo)([0,1]^(d))) <= CN^(-(k)/(d))||f||_(C^(k)[0,1]^(d))\left\|f-\sum_{i=1}^{N} c_{i} B_{i}\right\|_{L^{\infty}\left([0,1]^{d}\right)} \leq C N^{-\frac{k}{d}}\|f\|_{C^{k}[0,1]^{d}}

备注 4.4。定理 4.9 中有几个关键概念将在本书中反复出现。参数数量 N N NN 决定了近似精度 N k / d N k / d N^(-k//d)N^{-k / d} 。这意味着要实现精度 ε > 0 ε > 0 epsi > 0\varepsilon>0 需要 O ( ε d / k ) O ε d / k O(epsi^(-d//k))O\left(\varepsilon^{-d / k}\right) 个参数(根据这个上限),而这个数量在 d d dd 中呈指数增长。这种对 d d dd 的指数依赖被称为“维度诅咒”,将在后续章节中再次讨论。平滑度参数 k k kk 具有与 d d dd 相反的效果,并改善收敛速度。因此,平滑函数可以用比粗糙函数更少的 B 样条进行近似。这种更高效的近似需要使用阶数为 n n nn 的 B 样条,并且 n k n k n >= kn \geq k 。我们将在接下来的内容中看到,B 样条的阶数与神经网络中的深度概念密切相关。


4.2 使用 sigmoid 激活函数的 B 样条的重新近似


我们现在展示 B 样条的逼近速率可以转移到某些神经网络上。以下论证基于[142]。

定义 4.5。一个函数 σ : R R σ : R R sigma:RrarrR\sigma: \mathbb{R} \rightarrow \mathbb{R} 被称为阶数为 q N q N q inNq \in \mathbb{N} 的 sigmoid 函数,如果 σ C q 1 ( R ) σ C q 1 ( R ) sigma inC^(q-1)(R)\sigma \in C^{q-1}(\mathbb{R}) 并且存在 C > 0 C > 0 C > 0C>0 使得
σ ( x ) x q 0 as x σ ( x ) x q 1 as x | σ ( x ) | C ( 1 + | x | ) q for all x R σ ( x ) x q 0  as  x σ ( x ) x q 1  as  x | σ ( x ) | C ( 1 + | x | ) q  for all  x R {:[(sigma(x))/(x^(q)) rarr0" as "x rarr-oo],[(sigma(x))/(x^(q)) rarr1" as "x rarr oo],[|sigma(x)| <= C*(1+|x|)^(q)" for all "x inR]:}\begin{aligned} \frac{\sigma(x)}{x^{q}} & \rightarrow 0 & & \text { as } x \rightarrow-\infty \\ \frac{\sigma(x)}{x^{q}} & \rightarrow 1 & & \text { as } x \rightarrow \infty \\ |\sigma(x)| & \leq C \cdot(1+|x|)^{q} & & \text { for all } x \in \mathbb{R} \end{aligned}

例 4.6。整流功率单元 x σ ReLU ( x ) q x σ ReLU ( x ) q x|->sigma_(ReLU)(x)^(q)x \mapsto \sigma_{\operatorname{ReLU}}(x)^{q} 是阶数为 q q qq 的 S 形曲线。


我们接下来的目标是展示神经网络可以近似一个线性组合的 N N NN B-样条,其参数数量与 N N NN 成正比。根据定理 4.9,我们可以得到神经网络的收敛速率。让我们从用固定大小的神经网络近似一个单变量 B-样条开始。

命题 4.7. 设 n n nn , d N , n 2 , K > 0 d N , n 2 , K > 0 d inN,n >= 2,K > 0d \in \mathbb{N}, n \geq 2, K>0 ,并且 σ : R R σ : R R sigma:RrarrR\sigma: \mathbb{R} \rightarrow \mathbb{R} 是阶数为 q 2 q 2 q >= 2q \geq 2 的 sigmoid 函数。存在一个常数 C > 0 C > 0 C > 0C>0 ,使得对于每个 ε > 0 ε > 0 epsi > 0\varepsilon>0 ,都有一个神经网络 Φ S n Φ S n Phi^(S_(n))\Phi^{\mathcal{S}_{n}} ,其激活函数为 σ , log q ( n 1 ) σ , log q ( n 1 ) sigma,|~log_(q)(n-1)~|\sigma,\left\lceil\log _{q}(n-1)\right\rceil 层,大小为 C C CC ,使得
S n Φ S n L ( [ K , K ] d ) ε S n Φ S n L [ K , K ] d ε ||S_(n)-Phi^(S_(n))||_(L^(oo)([-K,K]^(d))) <= epsi\left\|\mathcal{S}_{n}-\Phi^{\mathcal{S}_{n}}\right\|_{L^{\infty}\left([-K, K]^{d}\right)} \leq \varepsilon

证明。根据定义 (4.1.1), S n S n S_(n)\mathcal{S}_{n} n + 1 n + 1 n+1n+1 σ ReLU n 1 σ ReLU  n 1 sigma_("ReLU ")^(n-1)\sigma_{\text {ReLU }}^{n-1} 的线性组合。我们首先对 σ ReLU n 1 σ ReLU  n 1 sigma_("ReLU ")^(n-1)\sigma_{\text {ReLU }}^{n-1} 进行近似。很容易看出(练习 4.10),对于每个 K > 0 K > 0 K^(') > 0K^{\prime}>0 和每个 t N t N t inNt \in \mathbb{N}
| a q t σ σ σ ( a x ) t times σ ReLU ( x ) q t | 0 as a | a q t σ σ σ ( a x ) t  times  σ ReLU ( x ) q t | 0  as  a |a^(-q^(t))ubrace(sigma@sigma@cdots@sigma(ax)ubrace)_(t-" times ")-sigma_(ReLU)(x)^(q^(t))|rarr0quad" as "a rarr oo|a^{-q^{t}} \underbrace{\sigma \circ \sigma \circ \cdots \circ \sigma(a x)}_{t-\text { times }}-\sigma_{\operatorname{ReLU}}(x)^{q^{t}}| \rightarrow 0 \quad \text { as } a \rightarrow \infty
 对所有 x [ K , K ] x K , K x in[-K^('),K^(')]x \in\left[-K^{\prime}, K^{\prime}\right] 统一。

设定 t := log q ( n 1 ) t := log q ( n 1 ) t:=|~log_(q)(n-1)~|t:=\left\lceil\log _{q}(n-1)\right\rceil 。然后 t 1 t 1 t >= 1t \geq 1 n 2 n 2 n >= 2n \geq 2 以来,以及 q t n 1 q t n 1 q^(t) >= n-1q^{t} \geq n-1 。因此,对于每个 K > 0 K > 0 K^(') > 0K^{\prime}>0 ε > 0 ε > 0 epsi > 0\varepsilon>0 ,存在一个具有 log q ( n 1 ) log q ( n 1 ) |~log_(q)(n-1)~|\left\lceil\log _{q}(n-1)\right\rceil 层的神经网络 Φ ε q t Φ ε q t Phi_(epsi)^(q^(t))\Phi_{\varepsilon}^{q^{t}} ,满足
| Φ ε q t ( x ) σ ReLU ( x ) q t | ε for all x [ K , K ] Φ ε q t ( x ) σ ReLU ( x ) q t ε  for all  x K , K |Phi_(epsi)^(q^(t))(x)-sigma_(ReLU)(x)^(q^(t))| <= epsiquad" for all "x in[-K^('),K^(')]\left|\Phi_{\varepsilon}^{q^{t}}(x)-\sigma_{\operatorname{ReLU}}(x)^{q^{t}}\right| \leq \varepsilon \quad \text { for all } x \in\left[-K^{\prime}, K^{\prime}\right]

这表明我们可以将 ReLU ReLU ReLU\operatorname{ReLU} q t n 1 q t n 1 q^(t) >= n-1q^{t} \geq n-1 次方进行近似。然而,我们的目标是获得 ReLU 的 n 1 n 1 n-1n-1 次方的近似值,这可能小于 q t q t q^(t)q^{t} 。为了降低阶数,我们模拟 Φ ε q t Φ ε q t Phi_(epsi)^(q^(t))\Phi_{\varepsilon}^{q^{t}} 的近似导数。具体来说,我们展示以下声明:对于所有 1 p q t 1 p q t 1 <= p <= q^(t)1 \leq p \leq q^{t} ,对于每个 K > 0 K > 0 K^(') > 0K^{\prime}>0 ε > 0 ε > 0 epsi > 0\varepsilon>0 ,存在一个具有 log q ( n 1 ) log q ( n 1 ) |~log_(q)(n-1)~|\left\lceil\log _{q}(n-1)\right\rceil 层的神经网络 Φ ε p Φ ε p Phi_(epsi)^(p)\Phi_{\varepsilon}^{p} ,并满足
| Φ ε p ( x ) σ ReLU ( x ) p | ε for all x [ K , K ] Φ ε p ( x ) σ ReLU ( x ) p ε  for all  x K , K |Phi_(epsi)^(p)(x)-sigma_(ReLU)(x)^(p)| <= epsiquad" for all "x in[-K^('),K^(')]\left|\Phi_{\varepsilon}^{p}(x)-\sigma_{\operatorname{ReLU}}(x)^{p}\right| \leq \varepsilon \quad \text { for all } x \in\left[-K^{\prime}, K^{\prime}\right]

该声明适用于 p = q t p = q t p=q^(t)p=q^{t} 。我们现在通过对 p = q t , q t 1 , p = q t , q t 1 , p=q^(t),q^(t)-1,dotsp=q^{t}, q^{t}-1, \ldots 进行归纳来进行推导。假设(4.2.3)对某个 p { 2 , , q t } p 2 , , q t p in{2,dots,q^(t)}p \in\left\{2, \ldots, q^{t}\right\} 成立。固定 δ 0 δ 0 delta >= 0\delta \geq 0 。然后
| Φ δ 2 p ( x + δ ) Φ δ 2 p ( x ) p δ σ ReLU ( x ) p 1 | 2 δ p + | σ ReLU ( x + δ ) p σ ReLU ( x ) p p δ σ ReLU ( x ) p 1 | Φ δ 2 p ( x + δ ) Φ δ 2 p ( x ) p δ σ ReLU ( x ) p 1 2 δ p + σ ReLU ( x + δ ) p σ ReLU ( x ) p p δ σ ReLU ( x ) p 1 {:[|(Phi_(delta^(2))^(p)(x+delta)-Phi_(delta^(2))^(p)(x))/(p delta)-sigma_(ReLU)(x)^(p-1)|],[quad <= 2(delta )/(p)+|(sigma_(ReLU)(x+delta)^(p)-sigma_(ReLU)(x)^(p))/(p delta)-sigma_(ReLU)(x)^(p-1)|]:}\begin{aligned} & \left|\frac{\Phi_{\delta^{2}}^{p}(x+\delta)-\Phi_{\delta^{2}}^{p}(x)}{p \delta}-\sigma_{\operatorname{ReLU}}(x)^{p-1}\right| \\ & \quad \leq 2 \frac{\delta}{p}+\left|\frac{\sigma_{\operatorname{ReLU}}(x+\delta)^{p}-\sigma_{\mathrm{ReLU}}(x)^{p}}{p \delta}-\sigma_{\mathrm{ReLU}}(x)^{p-1}\right| \end{aligned}

因此,根据二项式定理,存在 δ > 0 δ > 0 delta_(**) > 0\delta_{*}>0 使得
| Φ δ 2 p ( x + δ ) Φ δ 2 p ( x ) p δ σ ReLU ( x ) p 1 | ε Φ δ 2 p x + δ Φ δ 2 p ( x ) p δ σ ReLU ( x ) p 1 ε |(Phi_(delta_(**)^(2))^(p)(x+delta_(**))-Phi_(delta_(**)^(2))^(p)(x))/(pdelta_(**))-sigma_(ReLU)(x)^(p-1)| <= epsi\left|\frac{\Phi_{\delta_{*}^{2}}^{p}\left(x+\delta_{*}\right)-\Phi_{\delta_{*}^{2}}^{p}(x)}{p \delta_{*}}-\sigma_{\mathrm{ReLU}}(x)^{p-1}\right| \leq \varepsilon

对于所有 x [ K , K ] x K , K x in[-K^('),K^(')]x \in\left[-K^{\prime}, K^{\prime}\right] 。根据命题 2.3, ( Φ δ 2 p ( x + δ ) Φ δ 2 p ) / ( p δ ) Φ δ 2 p x + δ Φ δ 2 p / p δ (Phi_(delta_(**)^(2))^(p)(x+delta_(**))-Phi_(delta_(**)^(2))^(p))//(pdelta_(**))\left(\Phi_{\delta_{*}^{2}}^{p}\left(x+\delta_{*}\right)-\Phi_{\delta_{*}^{2}}^{p}\right) /\left(p \delta_{*}\right) 是一个具有 log q ( n 1 ) log q ( n 1 ) |~log_(q)(n-1)~|\left\lceil\log _{q}(n-1)\right\rceil 层且大小与 ε ε epsi\varepsilon 无关的神经网络。称这个神经网络为 Φ ε p 1 Φ ε p 1 Phi_(epsi)^(p-1)\Phi_{\varepsilon}^{p-1} ,这表明(4.2.3)对 p 1 p 1 p-1p-1 成立,从而结束归纳论证并证明了该声明。

对于每个神经网络 Φ Φ Phi\Phi ,每个空间平移 Φ ( t ) Φ ( t ) Phi(*-t)\Phi(\cdot-t) 都是相同架构的神经网络。因此,和式(4.1.1)中的每一项都可以通过固定大小的神经网络以任意精度进行近似。由于根据命题 2.3,相同深度的神经网络的和仍然是相同深度的神经网络,因此结果得以证明。

接下来,我们将命题 4.7 扩展到任意 , d N , t R d , d N , t R d ℓ,d inN,t inR^(d)\ell, d \in \mathbb{N}, \boldsymbol{t} \in \mathbb{R}^{d} 的多元样条 S , t , n d S , t , n d S_(ℓ,t,n)^(d)\mathcal{S}_{\ell, t, n}^{d}

命题 4.8. 设 n , d N , n 2 , K > 0 n , d N , n 2 , K > 0 n,d inN,n >= 2,K > 0n, d \in \mathbb{N}, n \geq 2, K>0 ,并且设 σ : R R σ : R R sigma:RrarrR\sigma: \mathbb{R} \rightarrow \mathbb{R} 为阶数为 q 2 q 2 q >= 2q \geq 2 的 sigmoid 函数。进一步设 N N ℓinN\ell \in \mathbb{N} t R d t R d t inR^(d)\boldsymbol{t} \in \mathbb{R}^{d}

然后,存在一个常数 C > 0 C > 0 C > 0C>0 ,使得对于每个 ε > 0 ε > 0 epsi > 0\varepsilon>0 ,都有一个具有激活函数 σ , log 2 ( d ) + log q ( k 1 ) σ , log 2 ( d ) + log q ( k 1 ) sigma,|~log_(2)(d)~|+|~log_(q)(k-1)~|\sigma,\left\lceil\log _{2}(d)\right\rceil+\left\lceil\log _{q}(k-1)\right\rceil 层和大小 C C CC 的神经网络 Φ S , t , n d Φ S , t , n d Phi^(S_(ℓ,t,n)^(d))\Phi^{\mathcal{S}_{\ell, t, n}^{d}} ,使得
S , t , n d Φ S , t , n d L ( [ K , K ] d ) ε S , t , n d Φ S , t , n d L [ K , K ] d ε ||S_(ℓ,t,n)^(d)-Phi^(S_(ℓ,t,n)^(d))||_(L^(oo)([-K,K]^(d))) <= epsi\left\|\mathcal{S}_{\ell, t, n}^{d}-\Phi^{\mathcal{S}_{\ell, t, n}^{d}}\right\|_{L^{\infty}\left([-K, K]^{d}\right)} \leq \varepsilon

证明。根据定义 S , t , n d ( x ) = i = 1 d S , t i , n ( x i ) S , t , n d ( x ) = i = 1 d S , t i , n x i S_(ℓ,t,n)^(d)(x)=prod_(i=1)^(d)S_(ℓ,t_(i),n)(x_(i))\mathcal{S}_{\ell, t, n}^{d}(\boldsymbol{x})=\prod_{i=1}^{d} \mathcal{S}_{\ell, t_{i}, n}\left(x_{i}\right) 其中
S , t i , n ( x i ) = S n ( 2 ( x i t i ) ) S , t i , n x i = S n 2 x i t i S_(ℓ,t_(i),n)(x_(i))=S_(n)(2^(ℓ)(x_(i)-t_(i)))\mathcal{S}_{\ell, t_{i}, n}\left(x_{i}\right)=\mathcal{S}_{n}\left(2^{\ell}\left(x_{i}-t_{i}\right)\right)

根据命题 4.7,存在一个常数 C > 0 C > 0 C^(') > 0C^{\prime}>0 ,使得对于每个 i = 1 , , d i = 1 , , d i=1,dots,di=1, \ldots, d 和所有 ε > 0 ε > 0 epsi > 0\varepsilon>0 ,存在一个大小为 C C C^(')C^{\prime} 、层数为 log q ( n 1 ) log q ( n 1 ) |~log_(q)(n-1)~|\left\lceil\log _{q}(n-1)\right\rceil 的神经网络 Φ S , t i , n Φ S , t i , n Phi^(S_(ℓ,t_(i),n))\Phi^{\mathcal{S}_{\ell, t_{i}, n}} ,使得
S , t i , n Φ S , t i , n L ( [ K , K ] d ) ε S , t i , n Φ S , t i , n L [ K , K ] d ε ||S_(ℓ,t_(i),n)-Phi^(S_(ℓ,t_(i),n))||_(L^(oo)([-K,K]^(d))) <= epsi\left\|\mathcal{S}_{\ell, t_{i}, n}-\Phi^{\mathcal{S}_{\ell, t_{i}, n}}\right\|_{L^{\infty}\left([-K, K]^{d}\right)} \leq \varepsilon

如果 d = 1 d = 1 d=1d=1 ,这显示了该声明。对于一般的 d d dd ,仍需证明 i = 1 , , d i = 1 , , d i=1,dots,di=1, \ldots, d Φ S , t i , n Φ S , t i , n Phi^(S_(ℓ,t_(i),n))\Phi^{\mathcal{S}_{\ell, t_{i}, n}} 的乘积可以被近似。

我们首先通过归纳法证明以下声明:对于每个 d N , d 2 d N , d 2 d inN,d >= 2d \in \mathbb{N}, d \geq 2 ,存在一个常数 C > 0 C > 0 C^('') > 0C^{\prime \prime}>0 ,使得对于所有 K 1 K 1 K^(') >= 1K^{\prime} \geq 1 和所有 ε > 0 ε > 0 epsi > 0\varepsilon>0 ,存在一个大小为 Φ mult, ε , d Φ mult,  ε , d Phi_("mult, "epsi,d)\Phi_{\text {mult, } \varepsilon, d} 的神经网络


C , log 2 ( d ) C , log 2 ( d ) C^(''),|~log_(2)(d)~|C^{\prime \prime},\left\lceil\log _{2}(d)\right\rceil 层,以及激活函数 σ σ sigma\sigma 使得对于所有 x 1 , , x d x 1 , , x d x_(1),dots,x_(d)x_{1}, \ldots, x_{d} 满足 | x i | K x i K |x_(i)| <= K^(')\left|x_{i}\right| \leq K^{\prime} 对于所有 i = 1 , , d i = 1 , , d i=1,dots,di=1, \ldots, d
| Φ mult , ε , d ( x 1 , , x d ) i = 1 d x i | < ε Φ mult , ε , d x 1 , , x d i = 1 d x i < ε |Phi_(mult,epsi,d)(x_(1),dots,x_(d))-prod_(i=1)^(d)x_(i)| < epsi\left|\Phi_{\mathrm{mult}, \varepsilon, d}\left(x_{1}, \ldots, x_{d}\right)-\prod_{i=1}^{d} x_{i}\right|<\varepsilon

对于基本情况,设 d = 2 d = 2 d=2d=2 。类似于命题 4.7 的证明,可以证明存在 C > 0 C > 0 C^(''') > 0C^{\prime \prime \prime}>0 ,使得对于每个 ε > 0 ε > 0 epsi > 0\varepsilon>0 K > 0 K > 0 K^(') > 0K^{\prime}>0 ,存在一个具有一个隐藏层和大小为 C C C^(''')C^{\prime \prime \prime} 的神经网络 Φ square, ε Φ square,  ε Phi_("square, "epsi)\Phi_{\text {square, } \varepsilon} ,使得
| Φ square , ε σ ReLU ( x ) 2 | ε for all | x | K Φ square  , ε σ ReLU ( x ) 2 ε  for all  | x | K |Phi_("square ",epsi)-sigma_(ReLU)(x)^(2)| <= epsiquad" for all "|x| <= K^(')\left|\Phi_{\text {square }, \varepsilon}-\sigma_{\operatorname{ReLU}}(x)^{2}\right| \leq \varepsilon \quad \text { for all }|x| \leq K^{\prime}
 对于每个 x = ( x 1 , x 2 ) R 2 x = x 1 , x 2 R 2 x=(x_(1),x_(2))inR^(2)x=\left(x_{1}, x_{2}\right) \in \mathbb{R}^{2}
x 1 x 2 = 1 2 ( ( x 1 + x 2 ) 2 x 1 2 x 2 2 ) = 1 2 ( σ ReLU ( x 1 + x 2 ) 2 + σ ReLU ( x 1 x 2 ) 2 σ ReLU ( x 1 ) 2 σ ReLU ( x 1 ) 2 σ ReLU ( x 2 ) 2 σ ReLU ( x 2 ) 2 ) x 1 x 2 = 1 2 x 1 + x 2 2 x 1 2 x 2 2 = 1 2 σ ReLU x 1 + x 2 2 + σ ReLU x 1 x 2 2 σ ReLU x 1 2 σ ReLU x 1 2 σ ReLU x 2 2 σ ReLU x 2 2 {:[x_(1)x_(2)=(1)/(2)((x_(1)+x_(2))^(2)-x_(1)^(2)-x_(2)^(2))],[=(1)/(2)(sigma_(ReLU)(x_(1)+x_(2))^(2)+sigma_(ReLU)(-x_(1)-x_(2))^(2)-sigma_(ReLU)(x_(1))^(2):}],[{:-sigma_(ReLU)(-x_(1))^(2)-sigma_(ReLU)(x_(2))^(2)-sigma_(ReLU)(-x_(2))^(2))]:}\begin{aligned} x_{1} x_{2}= & \frac{1}{2}\left(\left(x_{1}+x_{2}\right)^{2}-x_{1}^{2}-x_{2}^{2}\right) \\ = & \frac{1}{2}\left(\sigma_{\operatorname{ReLU}}\left(x_{1}+x_{2}\right)^{2}+\sigma_{\operatorname{ReLU}}\left(-x_{1}-x_{2}\right)^{2}-\sigma_{\operatorname{ReLU}}\left(x_{1}\right)^{2}\right. \\ & \left.-\sigma_{\operatorname{ReLU}}\left(-x_{1}\right)^{2}-\sigma_{\operatorname{ReLU}}\left(x_{2}\right)^{2}-\sigma_{\operatorname{ReLU}}\left(-x_{2}\right)^{2}\right) \end{aligned}

右侧的每个项可以通过一个大小为 C C C^(''')C^{\prime \prime \prime} 且具有一个隐藏层的网络近似到均匀误差 ε / 6 ε / 6 epsi//6\varepsilon / 6 。根据命题 2.3,我们得出结论,存在一个神经网络 Φ mult , ε , 2 Φ mult  , ε , 2 Phi_("mult ",epsi,2)\Phi_{\text {mult }, \varepsilon, 2} 满足 (4.2.4) 对于 d = 2 d = 2 d=2d=2

假设归纳假设 (4.2.4) 对 d 1 1 d 1 1 d-1 >= 1d-1 \geq 1 成立,并设 ε > 0 ε > 0 epsi > 0\varepsilon>0 K 1 K 1 K^(') >= 1K^{\prime} \geq 1 。我们有
i = 1 d x i = i = 1 d / 2 x i i = d / 2 + 1 d x i i = 1 d x i = i = 1 d / 2 x i i = d / 2 + 1 d x i prod_(i=1)^(d)x_(i)=prod_(i=1)^(|__ d//2__|)x_(i)*prod_(i=|__ d//2__|+1)^(d)x_(i)\prod_{i=1}^{d} x_{i}=\prod_{i=1}^{\lfloor d / 2\rfloor} x_{i} \cdot \prod_{i=\lfloor d / 2\rfloor+1}^{d} x_{i}

我们现在将根据归纳假设,通过神经网络近似(4.2.6)右侧乘积中的每一项。

为了简单起见,假设以下内容为 log 2 ( d / 2 ) = log 2 ( d d / 2 ) log 2 ( d / 2 ) = log 2 ( d d / 2 ) |~log_(2)(|__ d//2__|)~|=|~log_(2)(d-|__ d//2__|)~|\left\lceil\log _{2}(\lfloor d / 2\rfloor)\right\rceil=\left\lceil\log _{2}(d-\lfloor d / 2\rfloor)\right\rceil 。一般情况可以通过命题 3.16 来处理。根据归纳假设,存在神经网络 Φ mult, 1 Φ mult,  1 Phi_("mult, "1)\Phi_{\text {mult, } 1} Φ mult,2 Φ mult,2  Phi_("mult,2 ")\Phi_{\text {mult,2 }} ,它们都有 log 2 ( d / 2 ) log 2 ( d / 2 ) |~log_(2)(|__ d//2__|)~|\left\lceil\log _{2}(\lfloor d / 2\rfloor)\right\rceil 层,使得对于所有 x i x i x_(i)x_{i} ,满足 | x i | K x i K |x_(i)| <= K^(')\left|x_{i}\right| \leq K^{\prime} 对于 i = 1 , , d i = 1 , , d i=1,dots,di=1, \ldots, d
| Φ mult , 1 ( x 1 , , x d / 2 ) i = 1 d / 2 x i | < ε 4 ( ( K ) d / 2 + ε ) , | Φ mult , 2 ( x d / 2 + 1 , , x d ) i = d / 2 + 1 d x i | < ε 4 ( ( K ) d / 2 + ε ) Φ mult , 1 x 1 , , x d / 2 i = 1 d / 2 x i < ε 4 K d / 2 + ε , Φ mult , 2 x d / 2 + 1 , , x d i = d / 2 + 1 d x i < ε 4 K d / 2 + ε {:[|Phi_(mult,1)(x_(1),dots,x_(|__ d//2__|))-prod_(i=1)^(|__ d//2__|)x_(i)| < (epsi)/(4((K^('))^(|__ d//2__|)+epsi))","],[|Phi_(mult,2)(x_(|__ d//2__|+1),dots,x_(d))-prod_(i=|__ d//2__|+1)^(d)x_(i)| < (epsi)/(4((K^('))^(|__ d//2__|)+epsi))]:}\begin{array}{r} \left|\Phi_{\mathrm{mult}, 1}\left(x_{1}, \ldots, x_{\lfloor d / 2\rfloor}\right)-\prod_{i=1}^{\lfloor d / 2\rfloor} x_{i}\right|<\frac{\varepsilon}{4\left(\left(K^{\prime}\right)^{\lfloor d / 2\rfloor}+\varepsilon\right)}, \\ \left|\Phi_{\mathrm{mult}, 2}\left(x_{\lfloor d / 2\rfloor+1}, \ldots, x_{d}\right)-\prod_{i=\lfloor d / 2\rfloor+1}^{d} x_{i}\right|<\frac{\varepsilon}{4\left(\left(K^{\prime}\right)^{\lfloor d / 2\rfloor}+\varepsilon\right)} \end{array}

根据命题 2.3, Φ mult , ε , d := Φ mult , ε / 2 , 2 ( Φ mult , 1 , Φ mult , 2 ) Φ mult  , ε , d := Φ mult  , ε / 2 , 2 Φ mult  , 1 , Φ mult  , 2 Phi_("mult ",epsi,d):=Phi_("mult ",epsi//2,2)@(Phi_("mult ",1),Phi_("mult ",2))\Phi_{\text {mult }, \varepsilon, d}:=\Phi_{\text {mult }, \varepsilon / 2,2} \circ\left(\Phi_{\text {mult }, 1}, \Phi_{\text {mult }, 2}\right) 是一个具有 1 + log 2 ( d / 2 ) = 1 + log 2 ( d / 2 ) = 1+|~log_(2)(|__ d//2__|)~|=1+\left\lceil\log _{2}(\lfloor d / 2\rfloor)\right\rceil= log 2 ( d ) log 2 ( d ) |~log_(2)(d)~|\left\lceil\log _{2}(d)\right\rceil 层的神经网络。根据构造, Φ mult , ε , d Φ mult  , ε , d Phi_("mult ",epsi,d)\Phi_{\text {mult }, \varepsilon, d} 的大小不依赖于 K K K^(')K^{\prime} ε ε epsi\varepsilon 。因此,为了完成归纳,只需证明 (4.2.4)。

对于所有 a , b , c , d R a , b , c , d R a,b,c,d inRa, b, c, d \in \mathbb{R} 成立
| a b c d | | a | | b d | + | d | | a c | | a b c d | | a | | b d | + | d | | a c | |ab-cd| <= |a||b-d|+|d||a-c||a b-c d| \leq|a||b-d|+|d||a-c|

因此,对于 x 1 , , x d x 1 , , x d x_(1),dots,x_(d)x_{1}, \ldots, x_{d} ,在所有 i = 1 , , d i = 1 , , d i=1,dots,di=1, \ldots, d 中, | x i | K x i K |x_(i)| <= K^(')\left|x_{i}\right| \leq K^{\prime} ,我们有:
| i = 1 d x i Φ mult , ε , d ( x 1 , , x d ) | ε 2 + | i = 1 d / 2 x i i = d / 2 + 1 d x i Φ mult , 1 ( x 1 , , x d / 2 ) Φ mult , 2 ( x d / 2 + 1 , , x d ) | ε 2 + | K | d / 2 ε 4 ( ( K ) d / 2 + ε ) + ( | K | [ d / 2 + ε ) ε 4 ( ( K ) d / 2 + ε ) < ε i = 1 d x i Φ mult , ε , d x 1 , , x d ε 2 + i = 1 d / 2 x i i = d / 2 + 1 d x i Φ mult  , 1 x 1 , , x d / 2 Φ mult  , 2 x d / 2 + 1 , , x d ε 2 + K d / 2 ε 4 K d / 2 + ε + K [ d / 2 + ε ε 4 K d / 2 + ε < ε {:[|prod_(i=1)^(d)x_(i)-Phi_(mult,epsi,d)(x_(1),dots,x_(d))|],[ <= (epsi)/(2)+|prod_(i=1)^(|__ d//2__|)x_(i)*prod_(i=|__ d//2__|+1)^(d)x_(i)-Phi_("mult ",1)(x_(1),dots,x_(|__ d//2__|))Phi_("mult ",2)(x_(|__ d//2__|+1),dots,x_(d))|],[ <= (epsi)/(2)+|K^(')|^(|__ d//2__|)(epsi)/(4((K^('))^(|__ d//2__|)+epsi))+(|K^(')|^([d//2~|)+epsi)(epsi)/(4((K^('))^(|__ d//2__|)+epsi)) < epsi]:}\begin{aligned} & \left|\prod_{i=1}^{d} x_{i}-\Phi_{\mathrm{mult}, \varepsilon, d}\left(x_{1}, \ldots, x_{d}\right)\right| \\ & \leq \frac{\varepsilon}{2}+\left|\prod_{i=1}^{\lfloor d / 2\rfloor} x_{i} \cdot \prod_{i=\lfloor d / 2\rfloor+1}^{d} x_{i}-\Phi_{\text {mult }, 1}\left(x_{1}, \ldots, x_{\lfloor d / 2\rfloor}\right) \Phi_{\text {mult }, 2}\left(x_{\lfloor d / 2\rfloor+1}, \ldots, x_{d}\right)\right| \\ & \leq \frac{\varepsilon}{2}+\left|K^{\prime}\right|^{\lfloor d / 2\rfloor} \frac{\varepsilon}{4\left(\left(K^{\prime}\right)^{\lfloor d / 2\rfloor}+\varepsilon\right)}+\left(\left|K^{\prime}\right|^{[d / 2\rceil}+\varepsilon\right) \frac{\varepsilon}{4\left(\left(K^{\prime}\right)^{\lfloor d / 2\rfloor}+\varepsilon\right)}<\varepsilon \end{aligned}

这完成了(4.2.4)的证明。


整体结果通过使用命题 2.3 来表明,乘法网络可以与由 Φ S , t i , n Φ S , t i , n Phi^(S_(ℓ,t_(i),n))\Phi^{\mathcal{S}_{\ell, t_{i}, n}} 组成的神经网络进行组合,因为在上述任何步骤中,单个网络的大小都不依赖于近似精度,因此这对于最终网络也是成立的。

命题 4.8 表明,我们可以用一个与精度无关的神经网络来近似单个多元 B 样条。将这一观察与定理 4.9 结合,得出以下结果。

定理 4.9. 设 d , n , k N d , n , k N d,n,k inNd, n, k \in \mathbb{N} 使得 0 < k n 0 < k n 0 < k <= n0<k \leq n n 2 n 2 n >= 2n \geq 2 。设 q 2 q 2 q >= 2q \geq 2 ,并且设 σ σ sigma\sigma 为阶数为 q q qq 的 sigmoid 函数。

那么存在 C C CC ,使得对于每个 f C k ( [ 0 , 1 ] d ) f C k [ 0 , 1 ] d f inC^(k)([0,1]^(d))f \in C^{k}\left([0,1]^{d}\right) 和每个 N N N N N inNN \in \mathbb{N} ,存在一个神经网络 Φ N Φ N Phi^(N)\Phi^{N} ,其激活函数为 σ , log 2 ( d ) + log q ( k 1 ) σ , log 2 ( d ) + log q ( k 1 ) sigma,|~log_(2)(d)~|+|~log_(q)(k-1)~|\sigma,\left\lceil\log _{2}(d)\right\rceil+\left\lceil\log _{q}(k-1)\right\rceil 层,大小受限于 C N C N CNC N ,使得
f Φ N L ( [ 0 , 1 ] d ) C N k d f C k ( [ 0 , 1 ] d ) f Φ N L [ 0 , 1 ] d C N k d f C k [ 0 , 1 ] d ||f-Phi^(N)||_(L^(oo)([0,1]^(d))) <= CN^(-(k)/(d))||f||_(C^(k)([0,1]^(d)))\left\|f-\Phi^{N}\right\|_{L^{\infty}\left([0,1]^{d}\right)} \leq C N^{-\frac{k}{d}}\|f\|_{C^{k}\left([0,1]^{d}\right)}

证明。固定 N N N N N inNN \in \mathbb{N} 。根据定理 4.9,存在系数 | c i | C f L ( [ 0 , 1 ] d ) c i C f L [ 0 , 1 ] d |c_(i)| <= C||f||_(L^(oo)([0,1]^(d)))\left|c_{i}\right| \leq C\|f\|_{L^{\infty}\left([0,1]^{d}\right)} B i B n B i B n B_(i)inB^(n)B_{i} \in \mathcal{B}^{n} ,使得 i = 1 , , N i = 1 , , N i=1,dots,Ni=1, \ldots, N ,满足以下条件:
f i = 1 N c i B i L ( [ 0 , 1 ] d ) C N k d f C k ( [ 0 , 1 ] d ) f i = 1 N c i B i L [ 0 , 1 ] d C N k d f C k [ 0 , 1 ] d ||f-sum_(i=1)^(N)c_(i)B_(i)||_(L^(oo)([0,1]^(d))) <= CN^(-(k)/(d))||f||_(C^(k)([0,1]^(d)))\left\|f-\sum_{i=1}^{N} c_{i} B_{i}\right\|_{L^{\infty}\left([0,1]^{d}\right)} \leq C N^{-\frac{k}{d}}\|f\|_{C^{k}\left([0,1]^{d}\right)}

此外,根据命题 4.8,对于每个 i = 1 , , N i = 1 , , N i=1,dots,Ni=1, \ldots, N ,存在一个具有 log 2 ( d ) + log 2 ( d ) + |~log_(2)(d)~|+\left\lceil\log _{2}(d)\right\rceil+ log q ( k 1 ) log q ( k 1 ) |~log_(q)(k-1)~|\left\lceil\log _{q}(k-1)\right\rceil 层和固定大小的神经网络 Φ B i Φ B i Phi^(B_(i))\Phi^{B_{i}} ,它在 [ 1 , 1 ] d [ 0 , 1 ] d [ 1 , 1 ] d [ 0 , 1 ] d [-1,1]^(d)supe[0,1]^(d)[-1,1]^{d} \supseteq[0,1]^{d} 上以误差 ε := N k / d / N ε := N k / d / N epsi:=N^(-k//d)//N\varepsilon:=N^{-k / d} / N 逼近 B i B i B_(i)B_{i} Φ B i Φ B i Phi^(B_(i))\Phi^{B_{i}} 的大小与 i i ii N N NN 无关。

根据命题 2.3,存在一个神经网络 Φ N Φ N Phi^(N)\Phi^{N} ,它在 [ 0 , 1 ] d [ 0 , 1 ] d [0,1]^(d)[0,1]^{d} 上以误差 ε ε epsi\varepsilon 均匀逼近 i = 1 N c i B i i = 1 N c i B i sum_(i=1)^(N)c_(i)B_(i)\sum_{i=1}^{N} c_{i} B_{i} ,并且具有 log 2 ( d ) + log q ( k 1 ) log 2 ( d ) + log q ( k 1 ) |~log_(2)(d)~|+|~log_(q)(k-1)~|\left\lceil\log _{2}(d)\right\rceil+\left\lceil\log _{q}(k-1)\right\rceil 层。该网络的大小在 N N NN 上是线性的(见习题 4.11)。这结束了证明。

定理 4.9 表明,具有高阶 S 型函数的神经网络可以以与样条逼近相同的精度逼近平滑函数,同时参数数量相当。网络深度在平滑性参数 k k kk 方面需要表现得像 O ( log ( k ) ) O ( log ( k ) ) O(log(k))O(\log (k)) ,参见备注 4.4。


参考书目与进一步阅读


将 sigmoid 激活函数与基于样条的逼近联系起来的论点首次在 [ 144 , 142 ] [ 144 , 142 ] [144,142][144,142] 中提出。有关样条逼近的更多细节,请参见[166]或书籍[206]。

通过神经网络近似基函数的总体策略,以及提升这些基的近似结果的方法在文献中得到了广泛应用,并将在本书中再次出现。虽然接下来的章节主要集中在 ReLU 激活上,但我们强调了一些基于上述策略的非 ReLU 激活的显著方法:为了近似解析函数,[143] 模拟了单项式基。为了近似周期函数,[145] 中重建了三角多项式基。小波基在 [169] 中得到了模拟。此外,神经网络还通过脊波表示系统 [29] 和脊函数 [102] 进行了研究。描述表示系统模拟以转移近似结果的一般框架在 [21] 中提出。

 练习


练习 4.10。证明 (4.2.1) 成立。


练习 4.11. 设 L N , σ : R R L N , σ : R R L inN,sigma:RrarrRL \in \mathbb{N}, \sigma: \mathbb{R} \rightarrow \mathbb{R} ,并且设 Φ 1 Φ 1 Phi_(1)\Phi_{1} Φ 2 Φ 2 Phi_(2)\Phi_{2} 为两个具有架构 ( σ ; d 0 , d 1 ( 1 ) , , d L ( 1 ) , d L + 1 ) σ ; d 0 , d 1 ( 1 ) , , d L ( 1 ) , d L + 1 (sigma;d_(0),d_(1)^((1)),dots,d_(L)^((1)),d_(L+1))\left(\sigma ; d_{0}, d_{1}^{(1)}, \ldots, d_{L}^{(1)}, d_{L+1}\right) ( σ ; d 0 , d 1 ( 2 ) , , d L ( 2 ) , d L + 1 ) σ ; d 0 , d 1 ( 2 ) , , d L ( 2 ) , d L + 1 (sigma;d_(0),d_(1)^((2)),dots,d_(L)^((2)),d_(L+1))\left(\sigma ; d_{0}, d_{1}^{(2)}, \ldots, d_{L}^{(2)}, d_{L+1}\right) 的神经网络。证明 Φ 1 + Φ 2 Φ 1 + Φ 2 Phi_(1)+Phi_(2)\Phi_{1}+\Phi_{2} 是一个具有 size ( Φ 1 + Φ 2 ) size ( Φ 1 ) + size ( Φ 2 ) size Φ 1 + Φ 2 size Φ 1 + size Φ 2 size(Phi_(1)+Phi_(2)) <= size(Phi_(1))+size(Phi_(2))\operatorname{size}\left(\Phi_{1}+\Phi_{2}\right) \leq \operatorname{size}\left(\Phi_{1}\right)+\operatorname{size}\left(\Phi_{2}\right) 的神经网络。


练习 4.12。证明对于 σ = σ ReLU 2 σ = σ ReLU  2 sigma=sigma_("ReLU ")^(2)\sigma=\sigma_{\text {ReLU }}^{2} k 2 k 2 k <= 2k \leq 2 ,对于所有 f C k ( [ 0 , 1 ] d ) f C k [ 0 , 1 ] d f inC^(k)([0,1]^(d))f \in C^{k}\left([0,1]^{d}\right) ,定理 4.9 的近似神经网络的所有权重的绝对值可以被 O ( max { 2 , f C k ( [ 0 , 1 ] d ) } ) O max 2 , f C k [ 0 , 1 ] d O(max{2,||f||_(C^(k)([0,1]^(d)))})O\left(\max \left\{2,\|f\|_{C^{k}\left([0,1]^{d}\right)}\right\}\right) 约束。