CV领域初窥--图像分类(一)

在借鉴了很多资料和博客的基础上,做了一个较为集中的小总结

1 图像分类(Image Classification)

参考资料来源:
(1) 大话CNN经典模型:GoogLeNet(从Inception v1到v4的演进)
(2) 大话CNN经典模型:VGGNet
(2) [[技术综述]你真的了解图像分类吗?](https://zhuanlan.zhihu.com/p/47281243)

图像分类是计算机视觉中最基础的任务,其中可以分为跨物种语义级别的图像分类,子类细粒度图像分类,以及实例级图像分类三大类别。

1.1 跨物种语义级别的图像分类

在不同物种的层次上识别不同类别的对象,例如猫狗分类,这样的分类任务的特征是,较大的类间方差,较小的类内方差,例如典型的cifar10是在交通工具以及动物内部进行区分,都是语义上完全可以区分开的对象

1.2 子类细粒度图像分类

细粒度图像分类,是一个大类中的子类的分类,例如不同鸟类的分类,不同狗类的分类,不同车型的分类等等。例如Caltech-UCSD Birds-200-2011数据集,他是包含200类,11788张图像的鸟类书籍,为每一张图提供了15哥局部区域位置,1个标注框。这种细粒度级别的检测需要更为精细的分类器设计

1.3 实例级图像分类

如果我们需要区分不同的个体,不仅仅是物种类别或者子类,其就是一个识别问题,例如最典型的任务就是人脸识别。人脸识别对于计算机视觉领域落地是十分有意义的,它能够完成很多任务,例如安全维稳,考勤打卡,人脸解锁等应用场景都是和人脸识别这个实例级图像分类任务密切相关的。

1.4 图像分类的发展历史

1.4.1 MNIST与LeNet5

MNIST数据集在当时是一个baseline,其包含60000个训练数据,10000个测试数据,图像均为灰度图像,大小为32*32。在这个数据集中,其实传统方法表现的也不错,例如SVM以及KNN,SVM为代表的方法可以将MNIST分类错误率降低到0.56%, 超过当时的人工神经网络。

后来经过多次迭代,LeNet5在1998年诞生,这是一个经典的卷积神经网络,饱含着一些重要的特性:

  • 卷积层由卷积,池化,非线性激活函数构成。从1998年至今,经过20年的发展后,卷积神经网络依然遵循着这样的设计思想。其中,卷积发展出了很多的变种,池化则逐渐被带步长的卷积完全替代,非线性激活函数更是演变出了很多的变种。
  • 稀疏连接,也就是局部连接,这是以卷积神经网络为代表的技术能够发展至今的最大前提。利用图像的局部相似性,这一区别于传统全连接的方式,推动了整个神经网络技术的发展。

虽然LeNet5的错误率在0.7%左右,不如SVM方法,但随着网络结构的发展,神经网络方法很快的超过了其他的所有方法,有着很好的效果。

1.4.2 ImageNet与AlexNet

为了在工业界落地更加复杂的图像分类任务,李飞飞等人数年时间的整理下,2009年,ImageNet数据集发布了。ImageNet数据集共有1400多万张图片,共有2万多个类别,不过论文中常用的都是1000类的基准。

很有意思的是,李飞飞组在发表论文时,致谢里也提到:感谢我的母亲,一边织毛衣一边帮我标注数据。学术界也并不是那么脱离生活,也是十分有趣的

AlexNet在2012年时横空出世,是第一个真正意义上的深度网络,与LeNet5的5层相比,它的层数增加了3层,网络的参数量也大大增加,输入也从28变成了224,同时GPU的面世,也使得深度学习从此进行GPU为王的训练时代。
AlexNet有以下的特点:

  • 网络比LeNet5更深,包括5个卷积层和3个全连接层。
  • 使用Relu激活函数,收敛很快,解决了Sigmoid在网络较深时出现的梯度弥散问题。
  • 加入了Dropout层,防止过拟合。
  • 使用了LRN归一化层,对局部神经元的活动创建竞争机制,抑制反馈较小的神经元放大反应大的神经元,增强了模型的泛化能力。
  • 使用裁剪翻转等操作做数据增强,增强了模型的泛化能力。预测时使用提取图片四个角加中间五个位置并进行左右翻转一共十幅图片的方法求取平均值,这也是后* 面刷比赛的基本使用技巧。
  • 分块训练,当年的GPU计算能力没有现在强大,AlexNet创新地将图像分为上下两块分别训练,然后在全连接层合并在一起。
    总体的数据参数大概为240M,远大于LeNet5。

1.4.3 VGGNet与GoogLeNet

1.4.3.1 VGGNet

VGGNet探索了卷积神经网络的深度与其性能之间的关系,成功地构筑了16~19层深的卷积神经网络,证明了增加网络的深度能够在一定程度上影响网络最终的性能,使错误率大幅下降,同时拓展性又很强,迁移到其它图片数据上的泛化性也非常好。到目前为止,VGG仍然被用来提取图像特征。
VGGNet可以看成是加深版本的AlexNet,都是由卷积层、全连接层两大部分构成.全部使用3×3的卷积核和2×2的最大池化核,简化了卷积神经网络的结构。VGGNet很好的展示了如何在先前网络架构的基础上通过简单地增加网络层数和深度就可以提高网络的性能。虽然简单,但是却异常的有效,在今天,VGGNet仍然被很多的任务选为基准模型。

1.4.3.2 GoogLeNet

GoogLeNet也是将网络层次加深了,不过GoogLeNet做了更加大胆的网络结构的尝试,其深度只有22层,从参数数量来看,GoogleNet参数为500万个,AlexNet参数个数是GoogleNet的12倍,VGGNet参数又是AlexNet的3倍,因此在内存或计算资源有限时,GoogleNet是比较好的选择;但是从模型结果来看,GoogLeNet的性能却更加优越。

为什么不叫GoogleNet而是叫GoogLeNet,据说是为了向“LeNet”致敬

一般来说,提升网络性能最直接的办法就是增加网络深度和宽度,深度指网络层次数量、宽度指神经元数量。但这种方式存在以下问题:
(1)参数太多,如果训练数据集有限,很容易产生过拟合;
(2)网络越大、参数越多,计算复杂度越大,难以应用;
(3)网络越深,容易出现梯度弥散问题(梯度越往后穿越容易消失),难以优化模型。

解决这些问题的方法当然就是在增加网络深度和宽度的同时减少参数,为了减少参数,自然就想到将全连接变成稀疏连接。但是在实现上,全连接变成稀疏连接后实际计算量并不会有质的提升,因为大部分硬件是针对密集矩阵计算优化的,稀疏矩阵虽然数据量少,但是计算所消耗的时间却很难减少。比较通用的方法是使用dropout的方法,相当于从原始的网络中找到一个更”瘦“的网络(有待考究)

GoogLeNet团队提出了Inception网络结构,就是构造一种“基础神经元”结构,来搭建一个稀疏性、高计算性能的网络结构。

什么是Inception呢?Inception历经了V1、V2、V3、V4等多个版本的发展,不断趋于完善,下面一一进行介绍

1.Inception V1

通过设计一个稀疏网络结构,但是能够产生稠密的数据,既能增加神经网络表现,又能保证计算资源的使用效率。谷歌提出了最原始Inception的基本结构:

该结构将CNN中常用的卷积(1x1,3x3,5x5)、池化操作(3x3)堆叠在一起(卷积、池化后的尺寸相同,将通道相加),一方面增加了网络的宽度,另一方面也增加了网络对尺度的适应性。

网络卷积层中的网络能够提取输入的每一个细节信息,同时5x5的滤波器也能够覆盖大部分接受层的的输入。还可以进行一个池化操作,以减少空间大小,降低过度拟合。在这些层之上,在每一个卷积层后都要做一个ReLU操作,以增加网络的非线性特征

Inception V1.png
Inception V1.png

然而这个Inception原始版本,所有的卷积核都在上一层的所有输出上来做,而那个5x5的卷积核所需的计算量就太大了,造成了特征图的厚度很大,为了避免这种情况,在3x3前、5x5前、max pooling后分别加上了1x1的卷积核,以起到了降低特征图厚度的作用,这也就形成了Inception v1的网络结构

Inception V1-final.png
Inception V1-final.png

1x1的卷积核有什么用呢?
  • 1x1卷积的主要目的是为了减少维度,还用于修正线性激活(ReLU)。比如,上一层的输出为100x100x128,经过具有256个通道的5x5卷积层之后(stride=1,pad=2),输出数据为100x100x256,其中,卷积层的参数为128x5x5x256= 819200。而假如上一层输出先经过具有32个通道的1x1卷积层,再经过具有256个输出的5x5卷积层,那么输出数据仍为为100x100x256,但卷积参数量已经减少为128x1x1x32 + 32x5x5x256= 204800,大约减少了4倍。
基于Inception V1构建了GoogLeNet的网络结构如下

GoogLeNet.jpg
GoogLeNet.jpg

对上图说明如下:
(1)GoogLeNet采用了模块化的结构(Inception结构),方便增添和修改;
(2)网络最后采用了average pooling(平均池化)来代替全连接层,该想法来自NIN(Network in Network),事实证明这样可以将准确率提高0.6%。但是,实际在最后还是加了一个全连接层,主要是为了方便对输出进行灵活调整;
(3)虽然移除了全连接,但是网络中依然使用了Dropout ;
(4)为了避免梯度消失,网络额外增加了2个辅助的softmax用于向前传导梯度(辅助分类器)。辅助分类器是将中间某一层的输出用作分类,并按一个较小的权重(0.3)加到最终分类结果中,这样相当于做了模型融合,同时给网络增加了反向传播的梯度信号,也提供了额外的正则化,对于整个网络的训练很有裨益。而在实际测试的时候,这两个额外的softmax会被去掉。

  • 注:卷积核的stride意为步长,padding是填充。padding这个参数会从虚拟的边界进行扫描,不会在一定程度上降低边界信息的参考程度,不够卷积核扫描的时候会用padding这个进行扫描。stride这个参数意为不畅,用于在卷积核进行扫描时移动的步幅长度
2. Inception V2

Inception V2版本的解决方案就是修改Inception的内部计算逻辑,提出了比较特殊的“卷积”计算结构。
2.1 卷积分解(Factorizing Convolutions)
GoogLeNet团队提出可以用2个连续的3x3卷积层组成的小网络来代替单个的5x5卷积层,即在保持感受野范围的同时又减少了参数量
2.2 降低特征图大小

featuremap1.png
featuremap1.png

如果想让图像缩小,可以有如下两种方式:先池化再作Inception卷积,或者先作Inception卷积再作池化。但是方法一(左图)先作pooling(池化)会导致特征表示遇到瓶颈(特征缺失),方法二(右图)是正常的缩小,但计算量很大。为了同时保持特征表示且降低计算量,将网络结构改为下图,使用两个并行化的模块来降低计算量(卷积、池化并行执行,再进行合并)

featuremap2.png
featuremap2.png

使用Inception V2作改进版的GoogLeNet,网络结构图如下:

GoogLeNetV2.jpg
GoogLeNetV2.jpg

3. Inception V3

Inception V3一个最重要的改进是分解(Factorization),将7x7分解成两个一维的卷积(1x7,7x1),3x3也是一样(1x3,3x1),这样的好处,既可以加速计算,又可以将1个卷积拆成2个卷积,使得网络深度进一步增加,增加了网络的非线性(每增加一层都要进行ReLU)。

4. Inception V4

Inception V4主要利用残差连接(Residual Connection)来改进V3结构,得到Inception-ResNet-v1,Inception-ResNet-v2,Inception-v4网络。

resnet.png
resnet.png

resnet-inception.png
resnet-inception.png

← 上一篇 下一篇 →
Comments

添加新评论