卷积神经网络在分类层用卷积层代替全连接层的好处

先说一下结论:

好处:可以让卷积神经网络模型的训练集和测试集的图像大小不一样,如果是全连接层则必须输入图像的大小一致。

分析过程:

全连接层—代码演示具体操作

70629CDC-A632-41DD-BCE4-DB03D616BB4D.png

假设batch-size是1,最后的卷积层输出大小是5X5,通道数是512的话,如果接全连接层的话,就需要先reshape成一维的,这里的dim=12800(5X5X512),这里全连接层的权重矩阵大小就固定为了[12800,256](全连接层有256个神经元)。如果训练集和测试集中的图像大小不一样,就会导致卷积层的输出大小不一样,从而reshape后就不是12800了,使得无法和权重矩阵相乘,就会报错。所以如果是用全连接层的话,那么训练集和测试集输入模型的图像大小必须一致。

卷积层代替全连接层—代码演示具体操作

37551D70-E3F2-4022-A602-C777F19DDC2B.png

通常这种做法是用全局池化(global_pool)和1X1的卷积核实现的,全局池化是不需要设置filter,无论特征图多大都只保留一个。假设batch-size是1,最后的卷积层输出大小是5X5,通道数是512,那么接一个全局池化后卷积层的输出就从5X5,变成了1X1(这也是一种正则化的手段),通道数还是512。这个1X1X512的矩阵和1X1的卷积核做卷积运算,其效果就等于全连接层,但是由于全局池化的存在,所以可以不固定输入模型的图像大小,因为最后全局池化后都会是1X1。这样就可以让训练集和测试集输入模型的图像大小不一致。

代码是通过reduce_mean实现全局池化,[1,2]是表示在图像的高度和宽度这两个维度。(如果是[1,2,3]就表示在图像的高度、宽度和通道数这三个维度)。

题外话:

下图代码是谷歌公司实现GoogleNet网络的分类层

C8E5E5E6-AE18-4A3A-B4FF-BBB018B75CFD.png

代码也是池化+1X1卷积层的思想来作为全连接层,但是用的是传统池化层而不是全局池化,之所以池化层的filter大小是7X7,是因为上一层的卷积层输出的大小是7X7X1024,所以本质上效果等于全局池化,池化完的大小就是1X1X1024。不过这样的写法就导致GoogleNet的图像输入大小是固定的,只能是224X224,才会正好使最后一个卷积层的高度和宽度都是7。

添加新评论