首页作文素材好词好句历史典故写作技巧考场素材单元作文英语作文小升初作文名人故事时事论据 名言警句范文大全精美散文
小学作文
初中作文
高中作文
作文体裁

基于动态时序移位的视频特征学习方法

时间:2023-07-05 12:50:08 来源:爱作文网  爱作文网手机站

谈伟峰,程春玲,毛 毅

(南京邮电大学 计算机学院、软件学院、网络空间安全学院,江苏 南京 210023)

视频动作识别是计算机视觉领域中一个重要的任务,旨在从视频片段识别对应的动作类别。由于视频中包含丰富且复杂的信息,其中图像的空间信息和时间维度上的时序信息是所有视频都具备的基本信息,因此对视频动作的特征表达的学习也变得尤为复杂。随着深度学习在图像领域的成功应用,卷积神经网络(Convolutional Neural Network,CNN)[1]能够很好地满足对图像的空间特征的学习,获得深层次的图像特征表达。但是,对于视频动作识别任务而言,仅依赖CNN提取到的空间特征无法达到较好的识别效果。因此,如何利用时序信息来增强动作特征表达成为一个重要研究方法,即如何有效学习时序特征。

不同于CNN只处理单张图像,时序信息的学习需要考虑多个连续视频帧,而无论是利用CNN网络结构学习连续两帧之间的光流场信息,还是利用LSTM[2]学习连续视频帧的上下文依赖关系,在已经使用了CNN学习空间特征基础上都会极大地增加网络模型的复杂度,带来额外的开支。TSM(Temporal Shift Module)[3]在不增加网络结构的前提下,对从基础网络(ResNet-50[4])提取出的特征沿时间维度进行移位操作,实现了时序信息的建模。但TSM是按固定的通道比例来选择需要进行时序移位的通道,所获取的时序信息也只是针对部分浅层通道而言的,且未考虑到时间维度上的特征移位对整个特征结构的影响。

因此,考虑到不同层次通道上的时序信息对识别结果的贡献存在差异,并且时序移位改变了全局时空特征结构,提出基于全连接神经网络的动态时序移位和全局时空特征学习方法。在对不同时间维度上特征进行移位时,将产生信息共享,而信息间的差异很大程度上决定了交互后的有效性,因此可以利用不同时间维度上特征之间的相关性,作为时序移位通道的选择依据。在相关性学习方法的选择上,该文采用全连接神经网络,不仅是因为其能很好学习多个特征间的长期依赖关系,而且可以用于学习全局时空特征。固定全连接网络学习时序特征间相关性的学习参数,用于后期的全局时空特征学习,大大减少了模型的复杂度和参数量。

1.1 基于深度学习的时序特征学习方法

现有的基于深度学习的视频动作识别的网络结构主要分为Two-Stream、C3D(Convolution 3 Dimension)、CNN+RNN三大类。

Simonyan等[5]首次提出了双流网络(Two-Stream Network),采用两个分支的网络架构分别捕捉视频的空间和时间特征,然后对两种特征的分类结果进行融合。Feihtenhofer等[6]沿袭了双流网络结构,提出了5种融合时间特征和空间特征的策略,将融合的特征用于分类,更有效地利用了时空信息。Wang等[7]将不同的CNN基础架构(GoogLeNet[8],VGG-16[9])与双流网络相结合,并对比了不同CNN架构下的双流网络的准确率。Xiong等[10]针对当前网络对长期动作(long-range)时间结构理解不足且训练样本较小等问题,提出了稀疏时间采样策略和基于视频监督的策略,创建了时域分割网络(Temporal Segment Network,TSN)。在海洋钻井的实际应用场景下,文献[11]利用双分支网络融合关键点和光流轨迹,实现了人体动作的识别。文献[12]为进一步增强特征表达能力,引入深度信息,分别提取了RGB视频特征表示和深度视频的直方图特征表示,并对分类结果进行融合。黄菲菲等人[13]则利用HIS颜色空间模型,分别提取H、S、I三个通道下的HOG特征,并对分类结果进行等比例融合。

除了单独使用一个网络结构学习时序信息,还可以将时间视为第三个维度,使用三维卷积(3D Conv)提取视频的时空特征。Tran等[14]提出了C3D模型,对所有网络层均采用3×3×3卷积核尺寸,在C3D基础上又提出了Res3D网络[15],即在深度残差学习网络(ResNet8-style)中执行3D卷积,其精度高于C3D模型。Qiu等[16]对Inception-v3[17]进行分析后发现,1×3和3×1的2D卷积可以替代3×3的卷积核,并且计算量更小,于是从卷积核的尺寸设计的角度出发提出了伪3D网络。

随着RNN在NLP中的成功应用,体现出RNN在处理序列信息方面具有极好的能力,因此有人提出使用RNN学习视频的时序信息。LRCN[18]结合了CNN和LSTM,将由CNN获取到的空间特征视为有序的序列,作为LSTM的输入进一步学习时序特征。

无论是使用单独的网络学习时序特征,还是使用三维卷积,都大大增加了网络的结构、训练参数及计算量,很大程度上牺牲了识别的速度,且对设备的计算能力有着更高的要求。因此,针对时序信息的学习成本较大的问题,该文在时序移位(Temporal Shift)的基础上提出了动态时序移位方法(Dynamic Temporal Shift,DTS),从多个时间维度上特征间的相关性出发,动态选择不同层次通道进行时序移位,既不需要添加额外的网络结构,也学习到了更有效的时序特征。

1.2 基于时序移位的时序特征学习方法

针对现有主流的视频动作识别方法中存在的模型复杂度较高、网络参数较多的问题,TSM(Temporal Shift Module)将从基础网络中提取到多个连续帧的空间特征,沿时间维度对部分通道进行移位操作,从而促进了时间维度上信息的交互,建立了相邻帧之间的联系。TSM将常规的卷积操作分解为位移和乘积累加两个步骤,假设1D卷积为W=(w1,w2,w3),输入为X,输出Y=conv(W,X)=w1Xi-1+w2Xi+w3Xi+1。首先,对输入X进行移位:

(1)

然后,乘以卷积核参数并累加:

Y=w1X(-1)+w2X0+w3X(+1)

(2)

第一步的移位操作并不会产生任何的计算量,通过创建与输入尺寸相同的零变量,并使用Python中的切片符号(Slice Notation)对输入进行移位,最后将移位后的特征值赋值给零变量即可实现移位操作。第二步的卷积操作与移位前的卷积操作一致,并没有引入额外的计算成本。

GSN(Gate-Shift Networks)[19]基于分离空间和时间的思想,利用门控单元来决定是否进行时序移位操作。GSN首先在输入层使用空间卷积(2D Conv),然后将学习到的空间特征作为门控单元的输入;
门控单元由单个3D时空卷积核和tanh激活函数构成,利用3D卷积学习短期时空信息,tanh激活函数则为短期时空信息提供了一个门控平面,决定了是否对门控单元的输入进行时序移位。

无论是TSM还是GSN,进行时序移位操作都必须考虑以下两个问题:

(1)移位的通道数。如果移动的通道太多,虽然不会增加任何计算量,但大量数据的移动和赋值会增加内存的占用以及模型推断的时延;
如果移动的通道太少,时序信息间的交互太少,不足以学习到有效的时间特征。

(2)移位的通道。将部分通道沿时间维度进行移位,在一定程度上破坏了时空特征的整体结构,尤其是当某个通道上多个时间维度的特征间相关性很低时,对该通道进行移动不仅不能有效获取时序信息,甚至可能是噪声。

针对上述两个问题,TSM通过人为设定通道移位比例(1/2,1/4,1/8),通过多组对比实验的结果确定最终的通道移位比例;
并且利用残差结构,将移位前的特征与移位后的特征进行融合以保持对空间特征的学习能力。但是,TSM每次按照不同比例所选择的通道都是局部低层次的通道,且仅比较了局部连续的通道整体上对时序移位的影响,只获取到局部时序信息。此外,TSM通过残差结构也仅仅保证了空间特征的学习能力,忽略了时间特征结构的改变对整个特征学习的影响。GSN则利用门控单元改善了TSM中人为设定通道移动比例的局限性。但是,GSN所考虑的是短期时空信息,并未分析不同层次通道上的时序信息,仍然存在着一定的局限性,且采用的残差结构依旧只能保证空间特征的学习。

对于进行时序移位的通道的选择,该文设计一个动态时序移位(DTS)模块,利用双层全连接学习多个时间维度的特征间的相关性,获得不同层次通道的注意力分布,并固定双层全连接的网络参数用于保存时空特征信息。此外,为消除时间维度上特征的移位对整个特征结构的影响,利用双层全连接的网络参数进一步学习全局时空特征。

2.1 整体网络结构

基于全连接神经网络的动态时序移位和全局时空特征学习的网络结构如图1所示,主要由特征提取器(ResNet-50)、FFN(FC+Activation+FC)和动态时序移位模块(DTS)构成。首先,从采样到的视频图像中提取出基础特征X。然后,利用FFN+Softmax实现通道注意力分布的学习;
动态时序移位模块(DTS)依据通道注意力分布有选择地对通道特征进行时序移位操作;
对FFN进行拆分并对网络参数进行维度转换,学习全局时空特征;
对全局时空特征和动态时序移位后的特征进行融合,获得视频动作特征表示Y。最后,将特征表示Y输入分类器获得最终的分类结果。

图1 整体网络结构

2.2 动态时序移位模块(DTS)

动态时序移位(DTS)模块如图2所示。该模块依据由FFN学习到的不同层次通道上的注意力分布,对注意力值大于设定阈值的通道进行有选择的时序移位,实现在同一通道维度上不同时间维度间的信息交互,从而增强时序特征的表达。

图2 动态时序移位(DTS)模块结构

针对上述关于通道选择的两个问题,该文从多个时间维度的特征间的相关性角度出发,当特征间的相关性较大时,表明特征所包含的信息更具交互性。在对某通道进行时序移位时,若该通道上多个时间维度特征相关性较大,对时间维度上的特征的改变并不会产生差异性较大或无用的信息。因此,基于注意力机制的思想,利用双层全连接学习时间维度上特征间的相关性,获得不同层次通道的注意力分布,并设置阈值,对通道上注意力值大于阈值的通道进行时序移位,这样不仅确定了对哪些通道进行时序移位,也确定了进行时序移位的通道数。

首先,利用基础网络(ResNet-50[4],BNInception[17])进行初步特征提取,定义L个基础特征集合X∈RC×L,即从同一视频片段上的L帧图像中所学习到的基础特征:

X=(X1,X2,…,XL)

(3)

为学习通道维度上的注意力分布,需对通道维度上的特征间的相关性进行学习,因此先对特征集合X进行维度转换,再输入到全连接层:

(4)

然后,利用双层全连接计算出不同层次通道的注意力分布,并利用Softmax对注意力值进行归一化。注意力分布a∈R1×L计算如下:

(5)

其中,W1∈RL×H,b1∈RH×1,W2∈RH×1,b1∈R1×C。将基础特征集合X进行维度转换后,将每个通道上的一组特征视为一个输入,进入双层全连接后,将获得每个输入中时序信息间的依赖关系,再利用Softmax将获得的依赖关系数值化得到整个通道的注意力分布。这样就可以根据每个通道位置上的注意力大小,决定是否对该通道位置上的特征进行时序移位操作。这样不仅实现了时间维度上的建模,而且从相邻时间维度上的特征之间的相关性全面考虑了不同层次通道上的特征,利用网络学习出的时序特征间的依赖关系对通道进行选择,实现了对时序信息最大程度的利用。

2.3 全局时空特征学习

考虑到经过动态时序移位后,时间特征的结构信息的改变对整个时空特征学习的影响,该文进一步学习了全局时空特征,并将全局时空特征与时序移位后的特征进行融合,作为最后分类的输入。

基于全局时空特征的结构特性,利用全连接层可以有效保留完整的特征结构,并且可以获取长期依赖关系,因此全连接层可以很好实现对全局时空特征的学习。但引入新的全连接层学习全局时空特征会引入大量网络参数,现有双层全连接学习不同层次通道注意力分布时,已获得整个通道上不同时间维度间的依赖关系,而在整个时空特征中,通道域的信息可以看作是原始输入的层次化特征/层次化信息的层叠,因此可以直接利用现有全连接层学习全局时空特征,即将基础特征集合进行了维度转换后作为双全连接层的输入,从而学习不同层次通道上多个时间维度特征间的相关性,实现在不增加额外网络参数的情况下,利用双全连接层对全局时空特征进行学习。

该文将两层全连接层进行拆分,并对已经学习到的网络参数进行维度转换,对两个全连接的输出特征进行融合获得全局时空特征。这样可以在不增加额外网络参数的情况下,不仅保证了对空间特征的学习,而且消除了时序信息移位对整个时空特征的影响,提升了网络对时空特征的学习能力。

Z=σ(W1X+b1)

(6)

S(Z)=W2Z+b2

(7)

Y=Z·S(Z)

(8)

2.4 损失函数

该文采用了TSN[10]中的分割思想,将视频分割成L个等长的视频片段,再对每个视频片段进行采样,在使用分类结果计算损失之前,需要将特征的学习分为两个部分:第一个部分是经过动态时序移位后的特征;
第二部分是动态时序移位后的特征与全局时空特征的融合特征。将C个通道的特征经过动态时序移位后的特征定义为F,如式(9)所示:

F=[S(X1;W),S(X2;W),…,S(XC;W)]

(9)

(10)

最后,采用分类任务中经典的Cross Entropy Loss计算网络的损失:

(11)

3.1 数据集

UCF101[20]是收集自YouTube的现实动作的视频动作识别数据集,包含了101个动作类别的13 320个视频,101个动作类别大致可分为人与动物互动、人物肢体运动、人与人之间的互动、演奏乐器以及体育运动这5种类型。该数据源自YouTube用户录制并上传的视频,更贴切现实生活场景。该文将同一类别的视频分成25组,每组包含4~7个视频片段,其中训练集和验证集的视频数量分别为9 537和3 783,并采用RGB和Optical Flow两种特征类型。

Something-something v2[21]数据集由1 133位工作者提供的视频片段构成,按照同一上传者的视频放在一个集合内进行划分,下面简称为Sthv2。相比于其他数据集,Sthv2更加复杂,其视频数据量庞大,高达220 847,包含174个动作类别,每个视频片段时长为2~6秒。

3.2 实验结果分析

在UCF101数据集和Sthv2数据集上,主要进行两组实验:与TSM以及现有主流方法(TSN,GSN)进行精度对比;
基于消融实验分析注意力阈值的选择以及验证全局时空特征的有效性。实验基于Pytorch深度学习框架,操作系统为Ubuntu 18.04.1,显卡型号为GeForce RTX 2080i。

3.2.1 文中方法与主流算法的性能比较

本组实验研究文中方法与TSM、TSN[10]以及GSN[19]在UCF101和Something-something v2数据集上的识别精度。

实验采用了TSN的分段采样策略(Segment based Sampling),将视频数据分割成8个片段,即num_segments=8,再对每个视频片段进行密集采样(Dense Sampling);
使用ResNet-50作为特征提取器,初始特征维度为batch_size×64×224×224;
使用Softmax函数作为最终的分类器。实验结果采用Top-1和Top-5性能指标进行评测。

在UCF101数据集上,epoch为25,初始学习率为0.001,且每经过10个epoch进行学习率衰减,即降为原先的0.1倍;
在Something-something v2数据集上,考虑到数据量的庞大性,该文将epoch设置为50,初始学习率为0.01,学习率衰减的步数为20,其他参数设置保持不变。考虑到物理设备的限制,batch_size为16;
TSM算法中通道移位比例为1∶8,文中方法的注意力阈值为0.5,精度比较结果如表1所示。

表1 文中方法与其他方法的识别精度比较 %

通过表1可发现,在UCF101和Something-something v2数据集上,文中方法在Top-1和Top-5指标上均取得最好的识别精度,表明文中方法沿着时间维度有选择地进行通道特征移位,能够获取到更有效的时序信息,有利于最终的识别任务。此外,在Something-something v2数据集分类任务上,表1中算法所取得的识别精度均低于UCF101数据集上的结果,原因在于UCF101数据集相对简单,数据量较小、类别数较少,网络所需要学习的特征较少从而容易达到相对较好的分类效果。其中,TSN算法在两个数据集上Top-1精度差最大(ΔPrec@1=47.15%),表明基于时序移位的方法(TSM、GSN、Our Method)所建模的时序信息有利于处理数据更为复杂的分类任务。在UCF101数据集上,文中方法与TSM相比,Top-1精度仅提升0.45%;
而在更复杂的Sthv2数据集上,文中方法与GSN相比,Top-1精度提升6.61%,与TSM相比精度提升达9.46%,体现了文中方法具有更好的识别性能。

3.2.2 注意力阈值的选择

动态时序移位模块(DTS)基于由FFN获得的不同层次通道上注意力分布,选择通道注意力值大于阈值的通道进行时序移位,即选择出不同时间维度间特征相关性较大的通道。而阈值的大小决定着时序信息的交互程度,如果阈值过大,某些通道上紧密相关的时序信息未被得到有效利用;
如果阈值过小,则会对时序信息不紧密的通道进行时序移位,不同时间维度上会产生无关信息。为了进一步分析注意力阈值的选择,在UF101数据集上进行消融实验。对基础网络(ResNet-50)提取到的特征(32×64×224×224)计算每个通道上32个时间维度特征间的相关性,获得维度为64的通道注意力分布,并对注意力分布进行归一化处理,不同层次通道的注意力分布如图3所示。横坐标为特征的通道,纵坐标上的注意力值对应着每个特征通道。

图3 不同层次通道的注意力分布

从图3中可以看出,不同层次通道上的注意力分布存在较大的差异,表明不同层次通道上所包含的时序信息是不同的,呈现出正相关和负相关两种截然不同的结果,因此从多个时间维度间的相关性考虑选择通道进行时序移位,可以获取到更全面更有效的时序信息。注意力阈值的选择采取两种方式:根据注意力分布的结果人为选择阈值(0.5);
计算所有通道上注意力的均值作为阈值。实验发现,当对注意力值大于0.5的通道进行时序移位效果更好,因为不同通道上注意力值差异较大,且存在负值,不能很好地反映注意力值的整体分布。

3.2.3 全局时空特征有效性分析

经过动态时序移位后,实现不同时间维度上的信息交互,进一步增强时序特征表达。但时序移位操作对整个时空特征结构产生了一定影响,因此,该文在已有全连接层结构的基础上,进一步学习全局时空特征。为验证全局时空特征的有效性,去除所提方法中的全局时空特征学习过程,即取消对双层全连接(FNN)的拆分,对基础特征进行动态时序移位后直接用于最终的分类任务,获得基于全连接神经网络的动态时序移位方法(Our Method-),其整体网络结构如图4所示。在具体实现过程中,不固定双层全连接的参数,且没有特征融合过程。

图4 基于全连接神经网络的动态时序移位方法

为探究全局时空特征的有效性,在UCF101数据集上对5组视频动作识别方法进行了对比实验,所有参数设置均与3.2.1节实验设置一致,并绘制了测试精度随迭代变化曲线,如图5所示。其中横坐标为迭代次数,纵坐标为识别精度。

图5 UCF101数据集上的测试精度比较

由图可知,5组算法的识别精度均随着迭代次数增加,整体呈上升趋势,其中Our Method取得最高识别精度;
与TSM和Our Method-相比,Our Method在迭代前期未取得较好的识别效果,这可能是因为Our Method的特征规模较大,需要不断学习全局时空特征,而随着迭代步数的增加,学习到的全局时空特征更加稳定,为最终分类任务提供更有效的特征信息,Our Method取得了更好的分类结果;
缺失全局时空特征学习的方法(Our Method-)识别精度明显低于Our Method,进一步验证了全局时空特征的有效性。

针对处理视频时序信息中存在的模型复杂度高、时序信息不全面的问题,提出基于时序动作移位和时空特征学习的视频动作识别方法。首先,利用卷积网络学习初始特征,通过双层全连接学习多个时间维度上特征间的相关性,充分挖掘不同层次通道上所包含的时序信息。然后,固定部分网络参数帮助学习全局时空特征,消除了时序移位对整个特征结构的影响。实验表明,与现有主流方法以及基于时序移位的方法相比较,该方法的学习效果得到了明显提升。

视频动作识别是计算机视觉领域中的研究热点之一,在智能家居、游戏交互以及安防等多个方面得到广泛的应用。随着人工智能技术的不断发展,不断创新视频动作识别的方法,比如Vision Transformer[22],为加强图像特征学习、减少训练时计算量等问题提供了新的研究思路,对于改进视频动作识别方法有着很大的研究价值

猜你喜欢 时序移位全局 Cahn-Hilliard-Brinkman系统的全局吸引子数学物理学报(2022年4期)2022-08-22MDT诊疗模式在颞下颌关节盘不可复性盘前移位中的治疗效果昆明医科大学学报(2022年4期)2022-05-23量子Navier-Stokes方程弱解的全局存在性数学物理学报(2022年2期)2022-04-26清明小猕猴智力画刊(2022年3期)2022-03-28再生核移位勒让德基函数法求解分数阶微分方程数学物理学报(2020年2期)2020-06-02基于不同建设时序的地铁互联互通方案分析铁道建筑技术(2020年11期)2020-05-22大型球罐整体移位吊装技术石油化工建设(2019年4期)2019-10-10大型总段船坞建造、移位、定位工艺技术船舶标准化工程师(2019年4期)2019-07-24落子山东,意在全局金桥(2018年4期)2018-09-26基于FPGA 的时序信号光纤传输系统电子制作(2017年13期)2017-12-15

推荐访问:时序 移位 学习方法

版权声明:

1、本网站发布的作文《基于动态时序移位的视频特征学习方法》为爱作文网注册网友原创或整理,版权归原作者所有,转载请注明出处!

2、本网站作文/文章《基于动态时序移位的视频特征学习方法》仅代表作者本人的观点,与本网站立场无关,作者文责自负。

3、本网站一直无私为全国中小学生提供大量优秀作文范文,免费帮同学们审核作文,评改作文。对于不当转载或引用本网内容而引起的民事纷争、行政处理或其他损失,本网不承担责任。

热门专题