首页作文素材好词好句历史典故写作技巧考场素材单元作文英语作文小升初作文名人故事时事论据 名言警句范文大全精美散文
小学作文
初中作文
高中作文
作文体裁

基于双重注意力和3DResNet-BiLSTM行为识别方法

时间:2023-07-20 15:15:04 来源:爱作文网  爱作文网手机站

闫雨寒 陈 天 刘忠育 刘晓文

(中国矿业大学物联网(感知矿山)研究中心 江苏 徐州 221008) (中国矿业大学信息与控制工程学院 江苏 徐州 221008)

行为识别在人机交互、目标检测、视频描述等多个领域具有巨大的应用潜力和价值,然而由于视频数据中存在运动风格复杂、背景杂乱、光照环境复杂等问题[1-2],如何准确提取人员行为的时空特征并识别是目前极具挑战性的任务。

基于视频数据的行为识别需要考虑单帧图像的静态特征以及连续多帧图像之间的动态特征,在深度学习方法取得突破性进展之前,手动提取特征获取人员行为的时空特征是行为识别的通常做法。受益于深度学习方法在特征提取方面的独特优势,目前利用卷积神经网络学习视频数据中的深度特征并实现行为识别的方法主要包括双流CNN、C3D、CNN-LSTM等。Han等[3]在ImageNet上对深度残差网络进行预训练的基础上提出了一种深层双流卷积模型用于学习动作的复杂信息,在UCF101和KTH数据集上取得了良好效果。Yang等[4]利用3D卷积能够有效从视频数据中提取时空特征的优势,提出一种用于行为识别的非对称3D卷积神经网络结构,并在预处理阶段融合了RGB图像和光流图像的有效信息。Ullah等[5]将具有人类显著活动特征的视频镜头用于FlowNet2-CNN网络来提取时间特征,最后通过多层LSTM学习时间光流特征实现行为识别。

CNN作为特征提取的有效深度模型,通常被应用于二维图像,然而2DCNN没有考虑多个连续帧之间的时间动态信息。3DCNN通过在输入的同一位置进行三维卷积,能够有效捕获空间和时序特征,同时具有时间注意力模块的双向长短期记忆网络(Bi-directional Long Short-Term Memory,BiLSTM)能够充分获取上下文信息。在此基础上,本文提出一种基于双重注意力和3DResNet-BiLSTM的混合模型用于行为识别。首先将原始视频的连续帧作为3DResNet的输入,并利用卷积块注意力模块(Convolutional Block Attention Module,CBAM)聚焦空间和通道特征,抑制无关信息,为了更好地保留特征提取时的背景信息,提出一种加权池化融合系数对CBAM进行改进。随后利用嵌入时间注意力的BiLSTM进一步捕获时序特征实现行为识别。与基线模型相比,所提模型在UCF101和HMDB51数据集上的识别效果均具有较为明显的提升。

2DCNN通常在卷积层上进行二维卷积操作,从上一层的特征图中提取局部感受野中的特征,在应用加性偏置后通过非线性激活函数得到当前卷积层的输出特征图。在池化层中,通过下采样减少特征尺寸,增强不变性。CNN模型通常以交替叠加多个卷积层和池化层的方式构建,利用反向传播算法实现权重参数更新。

由于2DCNN仅从空间维度计算特征,当对视频数据进行分析时,需要捕获多个连续视频帧中的动态时序信息,因此需要在卷积层进行3D卷积来计算空间和时间维度特征。3D卷积通过一个三维卷积核对多个连续帧叠加构成的立方体进行卷积,将卷积层中的特征图连接到前一层中的多个相邻帧来获取时序信息[6]。通常第i层网络中第j个特征图在(x,y,z)位置进行3D卷积的值可表示为:

(1)

图1 残差学习结构示意图

递归神经网络(Recurrent Neural Network,RNN)通过将输入序列映射到隐藏层,再将隐藏层状态映射到输出,其计算过程可表示为:

ht=σ(Wxhxt+Whhht-1+bh)

(2)

zt=σ(Whzht+bz)

(3)

式中:σ(·)表示激活函数;
xt表示输入序列;
ht∈RN表示具有N个隐藏单元的隐藏层状态;
zt表示t时刻的输出;
W和b分别表示权重矩阵和加性偏置。

RNN能够将上下文信息融入到从输入到输出的映射中,但是在学习长期序列信息的过程中存在梯度消失或梯度爆炸的问题,导致其难以实现学习长期依赖。长短期记忆网络(Long Short-Term Memory,LSTM)是RNN的改进算法,通过输入门、遗忘门、输出门三个门控单元对信息流进行控制,有效克服了RNN存在的问题[7-8]。BiLSTM分别由前向LSTM和后向LSTM构成,能够有效获取上下文信息。LSTM的单元结构如图2所示。

图2 LSTM 单元结构

LSTM单元状态更新过程如下。

it=σ(Wxixt+Whiht-1+bi)

(4)

ft=σ(Wxfxt+Whfht-1+bf)

(5)

ot=σ(Wxoxt+Whoht-1+bo)

(6)

gt=tanh(Wxcxt+Whcht-1+bc)

(7)

ct=ct-1·ft+gt·it

(8)

ht=ot·tanh(ct)

(9)

式中:it、ft、ot、gt、ct、ht∈RN分别表示输入门、遗忘门、输出门、输入调制门、记忆存储单元和隐藏单元。由于it、ft、ot均为S形的,取值范围均在[0,1]之间,因此it和ot用于控制状态信息的输入和输出,ft决定了上一单元中哪些状态信息会被遗忘。

3.1 卷积注意力模块

对于给定的输入三维特征图F∈RT×H×W×C,H和W分别表示特征图的长和宽,C表示通道数量,T表示时间尺度。依次沿通道和空间分别生成注意力特征权重Mc和Ms,然后对t时刻特征图Ft进行重标定[9],其过程可表示为:

(10)

(11)

图3 卷积块注意力模块示意图

Mc(Ft)=σ(MLP(Avg(Ft)))=

(12)

图4 通道注意力模块算法流程示意图

由于3D卷积需要同时考虑连续帧之间的时空信息,提取特征时的背景信息变得更为重要,因此在挤压操作中通常利用平均池化保留细节信息。而最大池化能够保留纹理信息,为了同时获得平均池化和最大池化的优势,提出利用融合系数对挤压操作中的平均池化和最大池化进行加权融合。设最大池化融合系数为λ,则对通道注意力的最大池化操作应用融合系数得到:

Mc(Ft)=σ(MLP(Avg(Ft))+λ·MLP(Max(Ft)))=

(13)

空间注意力利用特征之间的空间关系生成空间注意力特征图,用于聚焦特征图中的重要信息。首先沿通道维度应用平均池化进行挤压操作生成空间描述符,通过卷积层后构建出空间注意力特征权重Ms,最后将特征图Ft与空间特征权重Ms逐元素相乘得到空间注意力特征图。其计算过程可表示为:

Ms(Ft)=σ(f7×7(AvgPool(Ft)))=

(14)

式中:σ(·)表示S型函数;
f7×7(·)表示卷积核大小为7×7的卷积运算。

空间注意力模块算法流程如图5所示。

图5 空间注意力模块算法流程示意图

3.2 时间注意力模型

软注意力机制通过模拟视觉注意力的分配过程,最大化相关上下文编码信息,减少无关信息的影响。对输入特征向量集合X中的任一向量xi,时间注意力权重的计算过程如下:

(15)

式中:f(x)=WTX为评价函数,用于反映特征的时序重要性,W为模型参数。注意力模块的输出为输入序列的加权和,利用注意力权重融合特征向量得到具有时间关注度的输出特征Xa。

(16)

本文提出一种基于卷积和时间双重注意力的3DRAN-BiLSTM-Attention模型。其中,三维残差注意力网络(3D Residual Attention Network,3DRAN)通过在ResNet网络中的第一个卷积层和最后一个卷积层后嵌入CBAM构建得到,残差注意力单元结构如图6所示。3DRAN中卷积层卷积核大小均为3×3×3,同时利用具有通道加权融合的CBAM聚焦空间和通道特征,提高网络的学习能力。将16个连续帧作为3DRAN的输入提取视频的时空特征,作为BiLSTM模型输入。

图6 残差注意力模块结构

在解码部分,BiLSTM分别利用前向和后向隐藏层节点获取全局上下文信息,得到输入特征序列H={h1,h2,…,hn-1,hn}。利用软注意力模块获取特征序列的权重分布,使关键特征信息具有更高的注意力权重,能够更好地聚焦重要时序特征,从而得到注意力加权特征序列A={a1,a2,…,an-1,an}。具体结构如图7所示。

图7 具有时间注意力的BiLSTM模型结构

最后,结合3DRAN和具有时间注意力的BiLSTM构建用于行为识别的混合模型,其整体结构如图8所示。

图8 双重注意力和3DResNet-BiLSTM模型结构

5.1 实验数据集

分别利用UCF101和HMDB51公共数据集进行实验。UCF101从YouTube上收集得到的真实动作数据集,共包含101个类别的13 320个短视频。HMDB51中的视频来自电影片段和一些在线视频网站,共包含55个类别6 849个短视频。两个数据集的70%用于训练,30%用于测试。

5.2 模型训练

本文实验运行环境为Intel Core i7-8700K,主频为3.70 GHz的6核心12线程CPU,16 GB内存,GPU为GTX1080Ti。首先对训练数据集利用水平翻转、随机剪裁、亮度调整等方式进行扩充,并从视频中随机选取16个连续帧,如果视频长度不够则进行循环播放和选取,最后将所有视频帧的大小调整为112×112,因此模型的输入尺寸为16×3×112×112,batch-size大小为256。为了减少模型过拟合,使用动量为0.9的随机梯度下降算法在Kinetics数据集上对3DRAN进行预训练,初始学习率设为0.01,当验证损失达到饱和后将学习率除以10。最后将预训练的3DRAN与具有时间注意力的BiLSTM结合构建得到本文的实验模型。

5.3 实验结果与分析

为了验证本文模型的有效性,分别设计了三组实验。首先第一组实验利用不同深度的嵌入卷积注意力的残差网络结构用于3D特征提取,对比不同深度模型的识别效果。由表1结果可以看出,随着残差注意力网络的加深,识别准确率呈上升趋势,表明深度网络能够提取到更多有效特征。

表1 具有不同深度残差结构的模型识别准确率(%)

卷积和时间注意力模块都是灵活的通用模块,其中卷积注意力模块能够利用通道和空间注意力模块的多种不同的组合顺序实现。第二个实验中对不同组合方式实现的注意力模型进行实验,并与无卷积和时间注意力的基础模型进行对比。为了节约计算资源和时间,均以3DResNet18为基础进行实验,实验结果如表2所示。结果表明,单通道注意力的效果要优于单个空间注意力模块,均好于基础模型。当同时使用通道和空间注意力时,通道注意力在前的顺序结构具有最好的识别效果。并且具有卷积注意力的模型在两个数据集上的识别效果与基础模型相比分别提升了1.7百分点和2.2百分点,说明卷积注意力模块能够有效抑制背景运动。此外,仅使用时间注意力的模型的识别效果要略低于仅使用卷积注意力的模型,这是因为Att-BiLSTM要依赖于3DResNet18提取的特征。

表2 不同注意力结构的模型识别准确率(%)

最后与其他流行的网络结构进行对比,由于模型训练和评估耗时较长,我们直接引用其他论文的实验结果。为了保证公平性,所有实验均采用RGB帧作为输入,结果如表3所示。可以看出,本文模型在UCF101和HMDB51数据集上的识别准确率分别达到92.7%和64.8%,要明显优于标准C3D、P3D、3DResNet101等模型。并且具有加权融合的通道注意力模型较上述模型的识别准确率分别提升了0.4百分点和1.1百分点,表明通过最大池化捕获特征纹理信息能够在一定程度上提升3DResNet的时空特征提取能力。此外,I3D的性能较好于本文模型,因为I3D采用的224×224大小的视频帧作为输入,包含了更多的特征信息,同时也使得I3D参数量较大,计算复杂度较高。

表3 不同模型的识别准确率对比(%)

本文提出一种基于双重注意力和3DResNet-BiLSTM的行为识别算法。3DResNet借助残差结构不会显著增加计算成本,将卷积注意力模块嵌入3DResNet模型中,聚焦重要特征信息而抑制无关信息。并且采用两种池化加权融合方式计算通道注意力能够在保留背景细节信息的同时获得纹理信息,有效提高了网络的时空特征学习能力。最后利用具有时间注意力的BiLSTM模型能够进一步学习时序信息从而实现行为识别。在UCF101和HMDB51数据集上进行的多组实验表明,在仅使用RGB帧作为输入的情况下,本文模型能够分别达到93.1%和65.9%的识别准确率。

猜你喜欢池化残差注意力基于Sobel算子的池化算法设计科学技术与工程(2023年3期)2023-03-15基于双向GRU与残差拟合的车辆跟驰建模网络安全与数据管理(2022年3期)2022-05-23让注意力“飞”回来小雪花·成长指南(2022年1期)2022-04-09卷积神经网络中的自适应加权池化软件导刊(2022年3期)2022-03-25设施蔬菜病害识别中的CNN池化选择新一代信息技术(2021年22期)2021-12-29基于残差学习的自适应无机目标跟踪算法北京航空航天大学学报(2020年10期)2020-11-14基于递归残差网络的图像超分辨率重建自动化学报(2019年6期)2019-07-23基于卷积神经网络和池化算法的表情识别研究计算机技术与发展(2019年1期)2019-01-21“扬眼”APP:让注意力“变现”传媒评论(2017年3期)2017-06-13A Beautiful Way Of Looking At Things第二课堂(课外活动版)(2016年2期)2016-10-21

推荐访问:注意力 识别 方法

版权声明:

1、本网站发布的作文《基于双重注意力和3DResNet-BiLSTM行为识别方法》为爱作文网注册网友原创或整理,版权归原作者所有,转载请注明出处!

2、本网站作文/文章《基于双重注意力和3DResNet-BiLSTM行为识别方法》仅代表作者本人的观点,与本网站立场无关,作者文责自负。

3、本网站一直无私为全国中小学生提供大量优秀作文范文,免费帮同学们审核作文,评改作文。对于不当转载或引用本网内容而引起的民事纷争、行政处理或其他损失,本网不承担责任。

热门专题