【减论系列栏目:从分布到生成(一)】当我们在说图像分布的时候,我们在说什么?
大家好,这里是减论基础拆减与科普传播系列栏目,《从分布到生成》专题第一集。
在开始我们第一集内容之前,让我们先做一个1秒钟选择题,请大家用1秒钟的时间思考如下哪个选项最为贴切:
问:我们在说图像的分布的时候,我们在说什么?
(1) 图像通过神经网络投影到特征空间集中在一个高维度流形上;
(2)图像通过神经网络投影到特征空间形成了不同的簇;
(3)图像中每一个单元像素取到特定RGB数值的可能性;
(4)其他理解
此前,我们在小范围(388人)做了一个统计结果,如下图所示。我们发现,有接近60%多的小伙伴倾向于选择(1)和(2),即涉及考察图像通过神经网络投影后的特征。不知道屏幕前的你选择的是哪一个选项呢?
我们先暂缓回答这个问题。提到分布,我们可以从最简单的分布说起。理解最简单的分布可以从抛硬币开始。当我们抛一枚硬币时,通常有50%的概率朝上是正面,同样也有50%的概率朝上是反面。这便是最简单的分布,数学上称为伯努利分布或二项分布。从物理采样的角度来看,我们将抛到正面记为变量x等于1,抛到反面记为变量x等于0。那么该分布的数学概率表达式可以写为:
这个分布足够简单,简单到其数据维度只有一个维度的标量,该标量的数值范围是0或者1。这个分布简单到除了通过抛硬币的物理采样,我们用计算机也能够很容易地模拟出它的采样:
好了,接下来的事情将会非常有趣。
我们尝试去理解图像的分布,其本质上可以简单地理解为上述分布在数据维度及数值范围上的拓展:
对于图像分布而言,变量X的取值从一个维度的标量变成了三维张量(例如:彩色图像3xHxW;灰色图像1xHxW)在本文中,我们以灰色数字0-9的图像为例来具体说明。
灰度图像张量中,0代表纯黑色,255代表纯白色,数值范围分布在0-255之间代表过渡的灰色。这些充斥着0-255的数值张量展示在屏幕上就出现了这些有意义的数字,例如下图中的数字1。
分布的数学描述也是类似的,只是在概率分布函数P(X)中,X的取值变成复杂的高维度张量,并且对不同X取值,我们难以获得其精确的概率数值;但有两点我们可以确定(即概率趋势,如图所示):
(1)属于该分布的数值张量(即图像外表上长得像0-9数字的)概率会大;
(2)而不属于该分布的概率会很小乃至接近于0(例如纯黑的背景、非数字其他图案、或者噪音图像等等)。
同样,我们可以借助人脑对0-9数字的形状认知物理采样书写出符合0-9外貌的数字。人脑中建模了复杂的分布函数P(X),人可以轻松地判别或生成符合该分布的对象。
然而,计算机采样的迁移就没有那么容易了。计算机可以很容易地实现伯努利分布、高斯分布这些简单分布的采样,但是到了高维度张量的图像分布,乍一看似乎很难实现了。对图像分布来说,P(X)是未知的,且更不清楚计算机能够通过什么计算能采样出一个有意义的数值张量。
综上,我们一用张图就能够理解图像分布的内核:
所以,当我们在说图像分布的时候,我们在说什么?我们实际上在描绘数据本身取值的概率函数的取值;
从定义的层面来看,图像的分布与一些简单的分布例如伯努利分布、高斯分布并无区别;
但是,由于其高维度的复杂性,它的分布(概率函数)通常是很难确切地掌握的,初步来看我们也很难用计算机实现其采样。在接下来的《从分布到生成》(二)中,我们将尝试着手去解决这个问题。
最后,亲爱的读者,对于文初的选择题,你们有了更加明确或者不一样的答案了么?欢迎在评论区打出你们的想法和探讨!
所以对于开局的问题,我更倾向于选C,在训练好参数的概率分布中进行采样,从而实现“生成”的目的