摘要
LeNet-5 出自论文 Gradient-Based Learning Applied to Document Recognition,是一种用于手写体字符识别的非常高效的卷积神经网络。
一、前言
LeNet-5 出自论文 Gradient-Based Learning Applied to Document Recognition,是一种用于手写体字符识别的非常高效的卷积神经网络。
本文将从卷积神经网络结构的基础说起,详细地讲解每个网络层。
论文下载:请到文章结尾处下载。
二、卷积神经网络(Convolutional Neural Network, CNN)
在讲解 LeNet-5 之前,让我们先看下 CNN。卷积神经网络能够很好的利用图像的结构信息。LeNet-5 是一个较简单的卷积神经网络。下图显示了其结构:输入的二维图像,先经过两次卷积层到池化层,再经过全连接层,最后使用 softmax 分类作为输出层。下面我们主要介绍卷积层和池化层。
1、卷积层
卷积层是卷积神经网络的核心基石。在图像识别里我们提到的卷积是二维卷积,即离散二维滤波器(也称作卷积核)与二维图像做卷积操作,简单的讲是二维滤波器滑动到二维图像上所有位置,并在每个位置上与该像素点及其领域像素点做内积。卷积操作被广泛应用与图像处理领域,不同卷积核可以提取不同的特征,例如边沿、线性、角等特征。在深层卷积神经网络中,通过卷积操作可以提取出图像低级到复杂的特征。
上图给出一个卷积计算过程的示例图,输入图像大小为 H=5,W=5,D=3,即 5×5 大小的 3 通道(RGB,也称作深度)彩色图像。这个示例图中包含两(用 K 表示)组卷积核,即图中滤波器 W0 和 W1。在卷积计算中,通常对不同的输入通道采用不同的卷积核,如图示例中每组卷积核包含(D=3)个 3×3(用 F×F 表示)大小的卷积核。另外,这个示例中卷积核在图像的水平方向(W 方向)和垂直方向(H 方向)的滑动步长为 2(用 S 表示);对输入图像周围各填充 1(用 P 表示)个 0,即图中输入层原始数据为蓝色部分,灰色部分是进行了大小为 1 的扩展,用 0 来进行扩展。经过卷积操作得到输出为 3×3×2(用 Ho×Wo×K 表示)大小的特征图,即 3×3 大小的 2 通道特征图,其中 Ho 计算公式为:Ho=(H−F+2×P)/S+1,Wo 同理。 而输出特征图中的每个像素,是每组滤波器与输入图像每个特征图的内积再求和,再加上偏置 bo,偏置通常对于每个输出特征图是共享的。输出特征图 o[:,:,0] 中的最后一个−2 计算如上图右下角公式所示。
记住这几个符号:
- H:图片高度;
- W:图片宽度;
- D:原始图片通道数,也是卷积核个数;
- F:卷积核高宽大小;
- P:图像边扩充大小;
- S:滑动步长。
在卷积操作中卷积核是可学习的参数,经过上面示例介绍,每层卷积的参数大小为 D×F×F×K。卷积层的参数较少,这也是由卷积层的主要特性即局部连接和共享权重所决定。
- 局部连接:每个神经元仅与输入神经元的一块区域连接,这块局部区域称作感受野(receptive field)。在图像卷积操作中,即神经元在空间维度(spatial dimension,即上图示例 H 和 W 所在的平面)是局部连接,但在深度上是全部连接。对于二维图像本身而言,也是局部像素关联较强。这种局部连接保证了学习后的过滤器能够对于局部的输入特征有最强的响应。局部连接的思想,也是受启发于生物学里面的视觉系统结构,视觉皮层的神经元就是局部接受信息的。
- 权重共享:计算同一个深度切片的神经元时采用的滤波器是共享的。例上图中计算 o[:,:,0] 的每个每个神经元的滤波器均相同,都为 W0,这样可以很大程度上减少参数。共享权重在一定程度上讲是有意义的,例如图片的底层边缘特征与特征在图中的具体位置无关。但是在一些场景中是无意的,比如输入的图片是人脸,眼睛和头发位于不同的位置,希望在不同的位置学到不同的特征 。请注意权重只是对于同一深度切片的神经元是共享的,在卷积层,通常采用多组卷积核提取不同特征,即对应不同深度切片的特征,不同深度切片的神经元权重是不共享。另外,偏重对同一深度切片的所有神经元都是共享的。
通过介绍卷积计算过程及其特性,可以看出卷积是线性操作,并具有平移不变性(shift-invariant),平移不变性即在图像每个位置执行相同的操作。卷积层的局部连接和权重共享使得需要学习的参数大大减小,这样也有利于训练较大卷积神经网络。
整体计算过程如下(与上图中的数据不同,但是计算过程相同):
2、池化层
池化是非线性下采样的一种形式,主要作用是通过减少网络的参数来减小计算量,并且能够在一定程度上控制过拟合。通常在卷积层的后面会加上一个池化层。池化包括最大池化、平均池化等。其中最大池化是用不重叠的矩形框将输入层分成不同的区域,对于每个矩形框的数取最大值作为输出层,如上图所示。
三、Lenet-5
LeNet5 这个网络虽然很小,但是它包含了深度学习的基本模块:卷积层,池化层,全链接层。是其他深度学习模型的基础, 这里我们对 LeNet5 进行深入分析。同时,通过实例分析,加深对与卷积层和池化层的理解。
LeNet-5 共有 7 层,不包含输入,每层都包含可训练参数;每个层有多个 Feature Map,每个 FeatureMap 通过一种卷积滤波器提取输入的一种特征,然后每个 FeatureMap 有多个神经元。
各层参数详解:
1、INPUT 层 - 输入层
首先是数据 INPUT 层,输入图像的尺寸统一归一化为 32*32。
注意:本层不算 LeNet-5 的网络结构,传统上,不将输入层视为网络层次结构之一。
2、C1 层 - 卷积层
输入图片:32*32
卷积核大小:5*5
卷积核种类:6
输出 featuremap 大小:28*28 (32-5+1)=28
神经元数量:28286
可训练参数:(55+1) * 6(每个滤波器 55=25 个 unit 参数和一个 bias 参数,一共 6 个滤波器)
连接数:(55+1)62828=122304
**详细说明:**对输入图像进行第一次卷积运算(使用 6 个大小为 55 的卷积核),得到 6 个 C1 特征图(6 个大小为 2828 的 feature maps, 32-5+1=28)。我们再来看看需要多少个参数,卷积核的大小为 55,总共就有 6(55+1)=156 个参数,其中 + 1 是表示一个核有一个 bias。对于卷积层 C1,C1 内的每个像素都与输入图像中的 55 个像素和 1 个 bias 有连接,所以总共有 1562828=122304 个连接(connection)。有 122304 个连接,但是我们只需要学习 156 个参数,主要是通过权值共享实现的。
3、S2 层 - 池化层(下采样层)
输入:28*28
采样区域:2*2
采样方式:4 个输入相加,乘以一个可训练参数,再加上一个可训练偏置。结果通过 sigmoid
采样种类:6
输出 featureMap 大小:14*14(28/2)
神经元数量:14146
连接数:(22+1)61414
S2 中每个特征图的大小是 C1 中特征图大小的 1/4。
**详细说明:**第一次卷积之后紧接着就是池化运算,使用 22 核 进行池化,于是得到了 S2,6 个 1414 的 特征图(28/2=14)。S2 这个 pooling 层是对 C1 中的 2*2 区域内的像素求和乘以一个权值系数再加上一个偏置,然后将这个结果再做一次映射。同时有 5x14x14x6=5880 个连接。
4、C3 层 - 卷积层
输入:S2 中所有 6 个或者几个特征 map 组合
卷积核大小:5*5
卷积核种类:16
输出 featureMap 大小:10*10 (14-5+1)=10
C3 中的每个特征 map 是连接到 S2 中的所有 6 个或者几个特征 map 的,表示本层的特征 map 是上一层提取到的特征 map 的不同组合
存在的一个方式是:C3 的前 6 个特征图以 S2 中 3 个相邻的特征图子集为输入。接下来 6 个特征图以 S2 中 4 个相邻特征图子集为输入。然后的 3 个以不相邻的 4 个特征图子集为输入。最后一个将 S2 中所有特征图为输入。
则:可训练参数:6*(355+1)+6*(455+1)+3*(455+1)+1*(655+1)=1516
连接数:10101516=151600
**详细说明:**第一次池化之后是第二次卷积,第二次卷积的输出是 C3,16 个 10x10 的特征图,卷积核大小是 55. 我们知道 S2 有 6 个 1414 的特征图,怎么从 6 个特征图得到 16 个特征图了? 这里是通过对 S2 的特征图特殊组合计算得到的 16 个特征图。具体如下:
C3 的前 6 个 feature map(对应上图第一个红框的 6 列)与 S2 层相连的 3 个 feature map 相连接(上图第一个红框),后面 6 个 feature map 与 S2 层相连的 4 个 feature map 相连接(上图第二个红框),后面 3 个 feature map 与 S2 层部分不相连的 4 个 feature map 相连接,最后一个与 S2 层的所有 feature map 相连。卷积核大小依然为 55,所以总共有 6(355+1)+6*(455+1)+3*(455+1)+1*(655+1)=1516 个参数。而图像大小为 10*10,所以共有 151600 个连接。
C3 与 S2 中前 3 个图相连的卷积结构如下图所示:
上图对应的参数为 355+1,一共进行 6 次卷积得到 6 个特征图,所以有 6*(355+1)参数。 为什么采用上述这样的组合了?论文中说有两个原因:1)减少参数,2)这种不对称的组合连接的方式有利于提取多种组合特征。
5、S4 层 - 池化层(下采样层)
输入:10*10
采样区域:2*2
采样方式:4 个输入相加,乘以一个可训练参数,再加上一个可训练偏置。结果通过 sigmoid
采样种类:16
输出 featureMap 大小:5*5(10/2)
神经元数量:5516=400
连接数:16*(2*2+1)55=2000
S4 中每个特征图的大小是 C3 中特征图大小的 1/4
**详细说明:**S4 是 pooling 层,窗口大小仍然是 2*2,共计 16 个 feature map,C3 层的 16 个 10x10 的图分别进行以 2x2 为单位的池化得到 16 个 5x5 的特征图。有 5x5x5x16=2000 个连接。连接的方式与 S2 层类似。
6、C5 层 - 卷积层
输入:S4 层的全部 16 个单元特征 map(与 s4 全相连)
卷积核大小:5*5
卷积核种类:120
输出 featureMap 大小:1*1(5-5+1)
可训练参数 / 连接:120*(1655+1)=48120
**详细说明:**C5 层是一个卷积层。由于 S4 层的 16 个图的大小为 5x5,与卷积核的大小相同,所以卷积后形成的图的大小为 1x1。这里形成 120 个卷积结果。每个都与上一层的 16 个图相连。所以共有 (5x5x16+1)x120 = 48120 个参数,同样有 48120 个连接。C5 层的网络结构如下:
7、F6 层 - 全连接层
输入:c5 120 维向量
计算方式:计算输入向量和权重向量之间的点积,再加上一个偏置,结果通过 sigmoid 函数输出。
可训练参数: 84*(120+1)=10164
**详细说明:**6 层是全连接层。F6 层有 84 个节点,对应于一个 7x12 的比特图,-1 表示白色,1 表示黑色,这样每个符号的比特图的黑白色就对应于一个编码。该层的训练参数和连接数是 (120 + 1)x84=10164。ASCII 编码图如下:
F6 层的连接方式如下:
8、Output 层 - 全连接层
Output 层也是全连接层,共有 10 个节点,分别代表数字 0 到 9,且如果节点 i 的值为 0,则网络识别的结果是数字 i。采用的是径向基函数(RBF)的网络连接方式。假设 x 是上一层的输入,y 是 RBF 的输出,则 RBF 输出的计算方式是:
上式 w_ij 的值由 i 的比特图编码确定,i 从 0 到 9,j 取值从 0 到 7*12-1。RBF 输出的值越接近于 0,则越接近于 i,即越接近于 i 的 ASCII 编码图,表示当前网络输入的识别结果是字符 i。该层有 84x10=840 个参数和连接。
上图是 LeNet-5 识别数字 3 的过程。
四、总结
- LeNet-5 是一种用于手写体字符识别的非常高效的卷积神经网络。
- 卷积神经网络能够很好的利用图像的结构信息。
- 卷积层的参数较少,这也是由卷积层的主要特性即局部连接和共享权重所决定。
参考资料:
文件下载 Gradient-Based Learning Applied to Document Recognition 下载地址
