(1).关于注意力机制
早在2001年就有学者Itti等人[1]从大脑成像机制分析人类的注意力机制。但直到2014年学者们才第一次将注意力机制用于深度学习,由Bahdanau等[2]提出,他们将注意力机制引入到机器翻译的应用中。近几年里随着注意力机制成为热点,学者们将其应用在了更多方面,尤其是现在火热的计算机视觉领域。下面将对相关文献及其中概念进行简短介绍。
Xu等[3]第一次将注意力机制引入计算机视觉。他们提出注意力机制并用于实现图文转换。他们将attention分类为可由标准的反向传播方法训练的Soft(特定)类型,和通过Willliams[4]提出的增强学习训练出的hard(随机)类型。先通过CNN提取出图像中L个区域的特征,再通过结合注意力机制的LSTM来将特征转化成对应的文字单词。但存在着特征识别错误以及注意力主体对象选取错误的问题
如上图图像所示,我们的注意力首先会受到鸟的吸引,其次才是注意到其背景的湖面。第一部分的下文以soft与hard类型的更加细致的分类与模型举例为基础。
-
-
-
- Soft attention的空间域
-
-
Jaderberg等[5]所提出的Spatial Transformer Networks (STN)模型使用了一个叫空间转换器的模块,它对图片中的的空间域信息做对应的空间变换,从而将关键的特征提取出来。
-
-
-
- Soft attention的通道域
-
-
Hu等 [6]提出了一个SENet的模型结构,首先通过卷积,产生了新特征信号U。U有C个通道,通过挤压、激励、注意三部分组成的注意力模块来学习出每个通道的权重,从而自动获取到每个特征通道的重要程度,产生通道域的注意力。在通过减少卷积核数量来减少特征冗余的反复计算。
-
-
-
- Soft attention的混合域
-
-
而Chen等[7]认为SENet卷积层的最后一层只考虑到空间上的注意力(spatial attention),并不能充分的展示其动态的关系,除此之外还需要回答“是什么”。在此基础上提出SCA-CNN。Wang等[8]将注意力机制结合到ResNet上,给每个特征对应一个注意力权重,就可以形成对于空间域和通道域都混合的注意力。
-
-
-
- Hard attention的时间域
-
-
DeepMind的Mnih等人[9]基于RNN提出Recurrent Attention Model将注意力机制看成对一张图片上的一个区域点的采样,通过Glimpse Sensor采集细节、中等和缩略图信息。
注意力机制就是拿注意力的权重分布施加在原来的特征之上,就可以叫做简单来说:
