这是用户在 2024-9-4 19:59 为 https://zhuanlan.zhihu.com/p/347688615 保存的双语快照页面,由 沉浸式翻译 提供双语支持。了解如何保存?

卷积网络与偏微分方程

AlanG 等 330 人赞同了该文章
发布于 2021-01-28 15:48 ,编辑于 2022-10-10 16:45

案:本人算是“科班”数学专业,毕业后转入工业界做了点计算机视觉和人工智能(AI)应用,才接触编程语言和深度学习。入行后逐渐发现本来专业所学(偏微分方程、可积系统)与深度学习有很深的联系,但没有写成文章。我写过一个英文的介绍 Neural networks & partial differential equations,这里尽可能简短地介绍一下,并做一些大胆的展望/开一下脑洞。

以卷积网络(CNN)为例,经过很多人的努力发展到残差网络(ResNet)及各种技巧的优化器,已经是一个巅峰了。尤其是将所有的卷积层都转化为3×3及1×1后(如所谓的"depthwise convolution"),整个网络(前向传播feed-forward)可以看做是一个偏微分方程(PDE)的数值模拟。具体地,输入的图像是初始条件,方程是一个(非线性)发展方程(evolution equation)

ut=F(u,ux,uy,2uxy,)\frac{\partial u}{\partial t}=F(u,\frac{\partial u}{\partial x},\frac{\partial u}{\partial y},\frac{\partial^2 u}{\partial x\partial y},\ldots) (数学/物理中的经典例子:热方程薛定谔方程KdV方程等)

其中 FF 包含了非线性的激活函数(ReLU)。变量 tt 对应网络的深度,xx yy是图像的长宽方向。(为了方便讨论,这里忽略了池化层和最后的全连接层。)最简单的数值模拟(通称“欧拉法”),就是把连续变量 t,x,yt,x,y 离散化,很容易得出ResNet的形式。关键的是,3×3的核(kernel)可以看作是(数值近似)一个二阶微分算子(second-order differential operator),即形如

α+βx+γy+δΔ+\alpha+\beta\frac{\partial}{\partial x} + \gamma\frac{\partial}{\partial y} + \delta\Delta + \cdots

的算子;而梯度下降的过程就是在调整这些偏导前面的系数(即神经网络中的权重 weights),使得方程的解(在 t=tft=t_f 时)更有利于最后的分类判断。训练可以看成是偏微分方程的逆问题(inverse problem):已知(很多很多)解,求方程。由于多通道(channels)的使用,更准确地说这是一个偏微分方程组,或者说是矩阵系数的偏微分方程。鉴于经典的波动方程也可以化为偏微分方程组,而更广义的双曲型(hyperbolic)微分方程具备更优的性质,我猜测卷积网络对应的方程很可能是双曲型的。

这个基本的联系有人在ResNet出现后就提出过,如鄂维南等,也有不少理论工作(反向传播解释成optimal control;见综述),但至今没有更多的AI从业人员采纳这一视角。我想原因之一是机器学习的思维范式及术语更多来自统计,很多人对不熟悉的数学概念望而却步;其二,貌似目前还没有人以此提出且验证出效果更优的网络结构。以偏微分方程的角度来看,上述的方程还是很浅显的: FF 只是最简单的非线性,系数 α,β,γ,\alpha,\beta,\gamma,\ldots 都是常系数,或者只是随 tt 变的函数。如果让系数也可以随x,yx,y变,那或许可以学到经典ResNet不易学到的。更具体地,如果仅让一阶算子的系数变成xxyy的一次函数(即ax+by+cax+by+c),就可以用来对图像做旋转缩放等变化–––数学上可以写作:

exp{θ(yx+xy)}=(0,0)旋转θ弧度\exp \left\{\theta\left(-y\frac{\partial}{\partial x}+x\frac{\partial}{\partial y}\right) \right\} = \text{绕}(0,0)\text{旋转}\theta \text{弧度}

我之前一段时间试图自己验证这一想法,希望可以有人合作来完成,特别是有ImageNet级别训练经验的。

理论上,这对很多人都关心的可解释性的问题有什么帮助呢?首先声明,本人对已有的可解释性工作完全不了解。我想可以分开两个可解释性问题,姑且称作宏观的和微观的。宏观的是:为什么这样一个高度过度参数化(overparametrized)的问题没有出现过拟合(overfitting),还能表现很好的泛化能力呢?很多人都想找到合适的数学工具来解释。基于偏微分方程的视角,我的猜测是:KdV和KAM。

KdV是一个非常特殊的非线性波动方程,当然我用它来代指一类像KdV那样的方程:他们的非线性与分散性(dispersion)两相抵消,可以让初始数据保持下去而不损耗。这个现象已经被解释为一个无穷维的可积系统(integrable system)。这一领域与其说是偏微分方程的一个分支(运用很多“硬的”估计和“软的”泛函方法),不若说是代数的一支。传统的看法是这类方程很少见,而绝大多数的方程都会出现混沌现象(chaos)。如果我猜测不错的话,这类方程其实并不少见:每个网络在每个训练集上训练出来都是(某种意义上)可积的。

而KAM理论是二十世纪天体力学(作为纯数学的一支)的巅峰之作,它是用来解释为什么连简单的三体问题都是混沌的,而我们的太阳系却能长期保持稳定呢?套用到深度卷积网络上,对于任意的(随机的)初始条件,网络给出的结果或许是混沌的──有一点扰动就产生很不一样的结果──但对于我们的训练集,和训练集“周边的区域”,结果又是稳定的。如果说太阳系的稳定态是上亿年淘汰出来的,那深度学习的稳定初始条件是我们定的,而方程是通过梯度递降找到的。虽然这可能不是我们期望的可解释性,但我相信KdV和KAM最起码指引了一个方向。

至于微观的可解释性问题,是对于某个具体的训练好的网络,每一层每个通道到底起到什么作用?以偏微分方程的视角,我们应该把每一层“对角化”,如把一个16×16×3×3的张量进行“张量分解”(等价于9个矩阵的同步SVD分解)。通过这种分析,一可以把网络模型缩小,类似于剪枝(pruning)的过程;二,几层连着看,或许可以看出某几个通道的作用。惭愧,我对已有的可解释性工作完全不了解,仅知道OpenAI的Chris Olah团队在做卷积网络reverse engineering的工作,见distill.pub/2020/circui

p.s. 感谢各位提供相关的工作!

p.p.s. 居然没看到

的文章 见笑了

发布于 2021-01-28 15:48 ,编辑于 2022-10-10 16:45
理性发言,友善互动

33 条评论
默认
最新
Violet
PDO-eConvs: Partial Differential Operator Based Equivariant Convolutions这个论文跟你的想法一样的
2021-02-03
dice16383
码一个
2021-02-26
刘杳
作者
谢谢告知!
2021-02-03
CLVolkov
你居然转业界去了。。。
2021-01-28
CLVolkov

我当年也涉入过一点机器学习,还有篇合作的publication,但后来发现绝大多数人都不懂后面的原理,没能力搞清楚算法什么时候性能很好什么时候性能不好。而有能力的那少数人几乎都有数学博士出身,所以我后来选择坚持基础数学。

2021-01-29
刘杳
作者

不居然,我一直是混的

2021-01-29
知乎用户6iyQ63

我只看到过一篇把有限元用到推荐系统的文章好像很有意思,这方面有其它成功案例么?

2021-03-13
柯均堂
可以分享一下这篇有限元做推荐系统的文章?
2022-01-16
AlanG
我关注的人
采用哪种张量分解 (Tucker, CP, TT, TR),每处的rank 如何设置,这不也是玄学[捂脸] 如何分解本身就成了个瞎调参过程。
2022-11-24
走心
想问一下 这样的数值模拟用到差分或者有限元 但是其实每一层之间所经过的时间是不一样的 而且x和y的划分意味着要放弃一些信息~ 这样可以保证权值共享吗
2021-05-08
Gustav
之前搞PDE但没学过数值的刚转ds,谢谢大佬分享
2021-03-05
刘杳
作者
我也没学过数值,据说这路理论很像有限元发展的初期,还在摸索。参见鄂维南最近的综述。
2021-03-05
李世博
现在吃力的就是数学。大佬有什么建议吗?
2021-02-26
李世博

可以啊!多谢多谢。

2021-03-07
李世博

一直在自己努力的学。主要是缺少太多线性代数的理论知识了。因为我实在看不起调参侠和掉包侠,虽然这样的人占了主要部分……嘘……

2021-03-07
Alen Merle
2021-02-17
Fisher
本人已投稿一片跟鄂维南院士工作相关的论文 自认为有所进展
2021-02-16
帆去哪儿了
有道理呀。 weights 可以是另一个网络的输出,继续卷一下。就看能不能跑出来更好的结果了
2021-02-09
lefw
dot product attention其实已经在做这事了
2021-02-10
帆去哪儿了
[飙泪笑] 哈哈哈 不是 conv based 啊
2021-02-12
点击查看全部评论
理性发言,友善互动

想来知乎工作?请发送邮件到 jobs@zhihu.com