0-ImageNet Classification with Deep Convolutional Neural Networks
AlexNet 2012 NIPS
背景
为了从数以百万计的图像中学习出数千种的目标,需要一个具有很强学习能力的模型。尽管CNNs有效率的局部结构,但大规模地应用于高分辨率图像消耗资源仍然过多。本文介绍了一种可以进行图像识别的卷积神经网络,包含了大量的不常见和新的特征来提升网络性能,减少训练时间。
包含6千万个参数和65万个神经元,包含了5个卷积层,其中有几层后面跟着最大池化层,以及3个全连接层,最后还有一个1000路的softmax层。为了加快训练速度,本文使用了不饱和神经元以及一种高效的基于GPU的卷积运算方法。为了减少全连接层的过拟合,采用了正则化方法“dropout”,该方法被证明非常有效。
实验
网络结构
8层学习层——5层卷积层和三层全连接层
用ReLUs主要是对训练集的拟合进行加速。快速学习对由大规模数据集上训练出大模型的性能有相当大的影响。
ReLUs具有符合本文要求的一个性质:它不需要对输入进行归一化来防止饱和。
(1)输入图像大小:224 * 224 * 3
(2)第一层卷积设置:卷积–>ReLU–>局部响应归一化(LRN)–>池化
(3)第二层卷积:卷积–>ReLU–>局部响应归一化(LRN)–>池化
(4)第三层卷积:卷积–>ReLU
(5)第四层卷积:卷积–>ReLU
(6)第五层卷积:卷积–>ReLU–>池化
(7)全连接层
(8)全连接层2
(9)输出层(全连接层3)
降低过拟合所采用的方法
数据扩增
为了降低过拟合,提高模型的鲁棒性,这里采用了两种Data Augmentation数据扩增方式:
a.生成图像平移和水平反射。通过从256×256幅图像中提取随机224×224块图像(及其水平反射),并在这些提取的图像上训练AlexNet。这将训练集的大小增加了2048倍。
b.改变训练图像中RGB通道的强度。在整个ImageNet训练集中对RGB像素值集执行PCA(Principal Component Analysis)[5]操作。
Dropout
训练采用了0.5丢弃率的传统Dropout,对于使用了Dropout的layer中的每个神经元,训练时都有50%的概率被丢弃。所以每次输入时,神经网络都会对不同的结构进行采样,但是所有这些结构都共享权重。这种技术减少了神经元之间复杂的相互适应,因为神经元不能依赖于其他神经元的存在,因此,它被迫获得更健壮的特征。测试时使用所有的神经元,但将它们的输出乘以0.5。 论文中还提到了:Dropout使收敛所需的迭代次数增加了一倍。
实验
batch size=128,动量项v=0.9,权值衰减(weight decay) wd=0.0005,W服从均值为0、标准差为0.01的高斯分布。
偏置项:第2、4、5卷积层和全连接层的b=1(促进最初阶段ReLU的学习);其它层b=0。
学习率:初始为0.01,当验证集的错误率停止降低时,手动缩减学习率(除以10)。
结果
最后结果top-1是67.4%,top-5是40.9%,比发布的最好的结果还要好。
左边部分,作者展示了8张图片的预测结果来说明网络在预测top-5时都从测试图片中学到了什么。右边部分则对比了测试集中的五张图片和在训练集中与之最相似的6张图片,如果两张图片产生的特征激活向量(即CNN的输出结果)的欧几里得距离小,就认为这两张图片相似。
总结
对于一个较大的数据集,给出了一种解决分类任务的方法,在当时取得了很重大的突破,AlexNet在深度学习
发展史上的历史意义远大于其模型的影响。卷积神经网络也成为计算机视觉的核心算法模型。
如果我们今天回过头看看,将人工智能领域的蓬勃发展归功于某个事件的话,这份殊荣应属于2012年 ImageNet大赛的比赛成果。
2012年 ImageNet 的那场赛事的的确确引发了今天人工智能井喷式的发展。之前在语音识别领域是有一些成果,但大众并不知道,也不关心,而 ImageNet 让人工智能开始进入公众视野。