大话卷积神经网络（CNN）-白红宇

大话卷积神经网络（CNN）

阅读量：5086 次

发布时间：2019-06-13

本文共 3913 字，大约阅读时间需要 13 分钟。

这几年深度学习快速发展，在图像识别、语音识别、物体识别等各种场景上取得了巨大的成功，例如AlphaGo击败世界围棋冠军，iPhone X内置了人脸识别解锁功能等等，很多AI产品在世界上引起了很大的轰动。在这场深度学习革命中，卷积神经网络（Convolutional Neural Networks，简称CNN）是推动这一切爆发的主力，在目前人工智能的发展中有着非常重要的地位。

【问题来了】那什么是卷积神经网络（CNN）呢？

1、小白一下，什么是神经网络？

这里的神经网络，也指人工神经网络（Artificial Neural Networks，简称ANNs），是一种模仿生物神经网络行为特征的算法数学模型，由神经元、节点与节点之间的连接（突触）所构成，如下图：

每个神经网络单元抽象出来的数学模型如下，也叫感知器，它接收多个输入（x1，x2，x3...），产生一个输出，这就好比是神经末梢感受各种外部环境的变化（外部刺激），然后产生电信号，以便于转导到神经细胞（又叫神经元）。

单个的感知器就构成了一个简单的模型，但在现实世界中，实际的决策模型则要复杂得多，往往是由多个感知器组成的多层网络，如下图所示，这也是经典的神经网络模型，由输入层、隐含层、输出层构成。

人工神经网络可以映射任意复杂的非线性关系，具有很强的鲁棒性、记忆能力、自学习等能力，在分类、预测、模式识别等方面有着广泛的应用。

2、重点来了，什么是卷积神经网络？

卷积神经网络在图像识别中大放异彩，达到了前所未有的准确度，有着广泛的应用。接下来将以图像识别为例子，来介绍卷积神经网络的原理。

（1）案例

假设给定一张图（可能是字母X或者字母O），通过CNN即可识别出是X还是O，如下图所示，那怎么做到的呢

（2）图像输入

如果采用经典的神经网络模型，则需要读取整幅图像作为神经网络模型的输入（即全连接的方式），当图像的尺寸越大时，其连接的参数将变得很多，从而导致计算量非常大。

而我们人类对外界的认知一般是从局部到全局，先对局部有感知的认识，再逐步对全体有认知，这是人类的认识模式。在图像中的空间联系也是类似，局部范围内的像素之间联系较为紧密，而距离较远的像素则相关性较弱。因而，每个神经元其实没有必要对全局图像进行感知，只需要对局部进行感知，然后在更高层将局部的信息综合起来就得到了全局的信息。这种模式就是卷积神经网络中降低参数数目的重要神器：局部感受野。

（3）提取特征

如果字母X、字母O是固定不变的，那么最简单的方式就是图像之间的像素一一比对就行，但在现实生活中，字体都有着各个形态上的变化（例如手写文字识别），例如平移、缩放、旋转、微变形等等，如下图所示：

我们的目标是对于各种形态变化的X和O，都能通过CNN准确地识别出来，这就涉及到应该如何有效地提取特征，作为识别的关键因子。

回想前面讲到的“局部感受野”模式，对于CNN来说，它是一小块一小块地来进行比对，在两幅图像中大致相同的位置找到一些粗糙的特征（小块图像）进行匹配，相比起传统的整幅图逐一比对的方式，CNN的这种小块匹配方式能够更好的比较两幅图像之间的相似性。如下图：

以字母X为例，可以提取出三个重要特征（两个交叉线、一个对角线），如下图所示：

假如以像素值"1"代表白色，像素值"-1"代表黑色，则字母X的三个重要特征如下：

那么这些特征又是怎么进行匹配计算呢？（不要跟我说是像素进行一一匹配的，汗！）

（4）卷积(Convolution)

这时就要请出今天的重要嘉宾：卷积。那什么是卷积呢，不急，下面慢慢道来。

当给定一张新图时，CNN并不能准确地知道这些特征到底要匹配原图的哪些部分，所以它会在原图中把每一个可能的位置都进行尝试，相当于把这个feature（特征）变成了一个过滤器。这个用来匹配的过程就被称为卷积操作，这也是卷积神经网络名字的由来。

卷积的操作如下图所示：

是不是很像把毛巾沿着对角卷起来，下图形象地说明了为什么叫「卷」积

在本案例中，要计算一个feature（特征）和其在原图上对应的某一小块的结果，只需将两个小块内对应位置的像素值进行乘法运算，然后将整个小块内乘法运算的结果累加起来，最后再除以小块内像素点总个数即可（注：也可不除以总个数的）。

如果两个像素点都是白色（值均为1），那么1*1 = 1，如果均为黑色，那么(-1)*(-1) = 1，也就是说，每一对能够匹配上的像素，其相乘结果为1。类似地，任何不匹配的像素相乘结果为-1。具体过程如下（第一个、第二个……、最后一个像素的匹配结果）：

根据卷积的计算方式，第一块特征匹配后的卷积计算如下，结果为1

对于其它位置的匹配，也是类似（例如中间部分的匹配）

计算之后的卷积如下

以此类推，对三个特征图像不断地重复着上述过程，通过每一个feature（特征）的卷积操作，会得到一个新的二维数组，称之为feature map。其中的值，越接近1表示对应位置和feature的匹配越完整，越是接近-1，表示对应位置和feature的反面匹配越完整，而值接近0的表示对应位置没有任何匹配或者说没有什么关联。如下图所示：