论文笔记《Going deeper with convolutions》1409

2019-11-06 09:28:01

字体：大中小

来源：转载

供稿：网友

Abstract

Inception网络的主要特点是在网络内提高计算资源的利用率。在有限的计算预算下，作者精心设计网络架构来增加网络的深度和宽度。

Introduction

目标检测领域增益来自：

更深更大的网络模型深度框架与经典CV的结合，如R-CNN

移动和嵌入计算的需求使得算法的有效性（功耗和内存）日渐重要。

从LeNet-5开始，卷积神经网络已经有一个标准的结构——卷积层堆积（有选择性地增加contrast normalization and max-pooling）紧跟着一个或多个全连接层。对于大数据集如ImageNet，最近的趋势是增加层的数目和层的尺寸，同时利用dropout来克服过拟合问题。尽管担心max-pooling层会导致空间信息的丢失，卷积网络结构如【9】被成功用来定位、目标检测和人的姿态评估。受神经科学里灵长目动物视觉平层模型的灵感激发，Serre【15】等人利用一系列不同尺寸的固定Gabor滤波器来处理多尺度问题，与Inception模型类似。但是和Serre固定两层深度模型不同的是，Inception里所有的filters都是学习的。更进一步讲，Inception层被重复若干次，直至22层深度模型比如GoogLeNet模型。 Network-in-Network【12】是由Lin等人提出来的方法来增加神经网络表示能力的。当应用在卷积层时，该方法可以被视为额外的1x1卷积层和修正线性激活函数（ReLu）。这使它能容易地被整合到当前CNN框架内。在我们的框架内，我们用了很多这种策略。但是在我们的设置内，1x1卷积有两个目的，最关键的是它们主要被当做维度降低模块来减少计算瓶颈，不然的话会限制我们网络的尺寸。这在没有严重表现惩罚的情况下，不仅可以增加深度，也可以增加宽度。 当前目标检测的主流方法是R-CNN，由Girshick等人提出。R-CNN将整体检测问题分解成两个子问题：首先利用低层次信号如颜色和超像素连续性来获取可能的object PRoposals，在一个category-agnostic fashion，然后用CNN分类器来确定那些位置的目标种类。这样的两阶段方法作为杠杆作用在基于低层信号的bounding-box分割准确率和现代CNNs的高分类力量。我们在detection submission里采取了相似的流程，但是在两个阶段都探索提升，例如对更高的物体bounding box召回率的multi-box 预测，以及bounding box proposals 更好分类集成方法。

Motivation and High Level Considerations

提高深度网络表现的最直接的方式增加网络规模：包括网络深度和宽度。但是这种简单的解决方案有两大缺点。 大模型有很多数量的参数，使得网络更容易过拟合，尤其是在训练集中标签样本数目有限的情况下。然而高质量训练集的生成需要技巧，代价也比较昂贵。 另一个缺点是会极大增加计算资源。 解决这两个问题重要的方式是将全连接网络完全改成稀疏连接框架，甚至在卷积内部。除了模仿生物系统以外，也有坚实的理论基础优势（Arora等人的突破性工作【2】）。他们主要结果陈述了：如果数据集的概率分布能够被大且稀疏的深度网络表示，那么能够一层一层地去构建最优网络拓扑结构，方法是借助最后一层激活的相关性统计分析和高度相关性输出的神经元聚类。尽管严格的数学证明需要非常强的条件，但是这种陈述和著名的Hebbian原则（同时放电的神经元串联在一起，注：记忆力或许也可以通过该原则来解释）相呼应。这提醒我们，即使在实际应用时的宽松条件下，该基本思想也是可运用的。令人消极的是，当涉及到在不均匀稀疏数据结构的数值运算时，今天的计算基础架构是非常低效的。即使在算术操作的数目减小100X情况下，查找的天花板和缓存丢失也占很大成分，以致于转向稀疏矩阵的方法并不有效。这种间隙被进一步拉大了，因为（稳步提升、高度调整、大量的库）允许稠密矩阵的超快运算，开拓了基本CPU或GPU硬件的微小细节。同时，不均匀稀疏模型需要更复杂的工程和计算基本架构。当前大多数视觉导向的机器学习系统利用卷积来实现空间域里的稀疏性。但是在浅层，卷积实现时是一种紧密连接到patch的聚合。传统上，自从【11】卷积神经网络在特征维度上采用随机和稀疏连接表，来打破对称性和提高学习。领域又趋向使用全连接【9】来更好的优化并行计算。结构的一致性、大量的filters以及更大的batch size允许采用有效的紧密计算。