首页作文素材好词好句历史典故写作技巧考场素材单元作文英语作文小升初作文名人故事时事论据 名言警句范文大全精美散文
小学作文
初中作文
高中作文
作文体裁

基于运动跟踪与特征融合的视频实例分割方法

时间:2023-02-15 15:35:12 来源:爱作文网  爱作文网手机站

周 震,李 莹,柳德云,吉根林

(南京师范大学 计算机与电子信息学院/人工智能学院,江苏 南京 210023)

视频实例分割(VIS)的研究正变得越来越重要,它是计算机视觉中一项具有挑战性的研究内容。在图像领域中实例分割需要同时检测和分割对象实例[1],而在视频领域中,实例分割更具挑战性[2],因为它还需要准确跟踪和分类整个视频中的对象。

现有的VIS方法通常采用两种不同的思路来处理实例分割任务:第一种思路是“剪辑-匹配”,基于分而治之的思想。它将整个视频分成多个重叠的短片段(剪辑),并获得每个剪辑的VIS结果,最后合并生成具有逐个剪辑匹配的实例序列[3-4],如图1(a)所示。另一种思路是“检测-跟踪”,利用跟踪头扩展现有的图像实例分割网络,首先使用图像实例分割网络逐帧进行目标检测和分割,然后通过跟踪头以分类或重识别的方法将这些目标进行关联以生成实例序列[2-5],如图1(b)所示。这两种思路都需要从视频中生成多个不完整的序列(帧或者剪辑),然后通过跟踪/匹配来合并它们。

现有的方法在合并序列的过程中很容易受到因目标被遮挡或快速运动导致的误检的影响,累积之后可能造成更大的分割误差。此外,现有方法普遍有一个缺点,即它们忽略了帧间实例关系。帧间实例关系是指不同帧实例之间的关系,这种帧间关系通常包含丰富的时空信息,对处理VIS任务很有用。最近的一些方法[4-5]已经注意到了这个问题,但是它们直接在帧级别融合了来自相邻帧的特征,这可能会导致目标特征信息传播不精确,从而对准确性产生负面影响,并且这些方法仅利用这些信息进行检测和分割,没有用于跟踪。

针对上述问题,在“检测-跟踪”思路的基础上提出了一种新的视频实例分割方法(MTFA)。具体而言,在目前图像分割网络的基础上添加一个新的运动跟踪头和自注意力特征融合模块,运动跟踪头借助运动模拟的位置信息和检测分割的特征信息来跨帧关联实例,特征融合模块借助运动跟踪头跟踪结果提取相应支持帧上的实例特征与目标帧实例特征进行基于注意力的融合,并将融合后实例特征增强的原特征图传入图像实例分割网络以生成效果更好的实例分割掩码。该方法实现了跟踪与分割任务之间的信息共享与相互帮助,提升了检测分割结果,有效解决了遮挡、快速运动和成像质量差导致追踪和分割效果差的问题。

文中的网络MTFA基于QueryInst[6],包含一个特征提取骨干网络,一个基于实例查询的检测框&掩码生成器和一个运动跟踪头,还包括一个基于注意力的特征融合模块。MTFA网络处理VIS任务的整体流程如图2所示。

图中上部实线箭头部分代表一阶段完成内容,通过图像实例分割网络实现帧级别的目标检测任务,然后通过运动跟踪头跨帧关联实例,并为每个检测框分配一个实例标签,这与先前的“检测-跟踪”网络相似。二阶段以目标帧t为例,以t±n帧为支持帧,对于t帧中的每一个实例,提取t±n帧中相应实例的特征图,通过一个基于注意力的特征融合模块得到融合的实例特征用以增强t帧特征图,并传入图像实例分割网络生成实例掩码。

在本节中,首先介绍生成图像中实例检测框和分割掩码的QueryInst网络架构。然后详细介绍MTFA的网络结构以及各个模块的细节。

1.1 图像中实例的检测分割

QueryInst[6]是两阶段图像实例分割网络,它将图片中的实例作为一组查询来驱动整个网络,整个网络分为6个阶段,每个阶段以前一阶段输出为输入。以第三阶段s3为例,流程如图3所示。

实例检测:对于检测框预测,处理顺序如下:在阶段s3处理时,一个检测框提议器在前一阶段检测框预测结果bs2的指导下,从特征图F(feature map)中提取当前阶段检测框特征。同时,将前一阶段查询对象qs2输入基于注意力的查询转换器中以获得转换后的查询对象。然后将当前阶段检测框特征信息和转换后查询对象输入检测框生成器用以生成当前阶段的检测框预测bs3,并为下一阶段生成查询对象qs3。

实例分割:对于实例掩码预测,处理顺序如下:在当前阶段检测框预测bs3的指导下,掩码提议器从特征图F中提取当前阶段掩码特征。将当前阶段掩码特征和转换后查询对象输入掩码生成器用以生成实例级别掩码预测masks3

1.2 基于运动和特征的实例跟踪

(1)

MTFA的运动跟踪头结合了运动信息和外观特征信息,使得跟踪性能超越了之前的运动跟踪头,并克服例如目标交错、遮挡导致的跟踪错误。相较于对全图特征进行跟踪的工作计算量更小,且忽略了背景信息和其他不可见的干扰信息,使得追踪更具效率。

1.3 基于注意力的特征融合

在上述运动跟踪头的作用下,MTFA能够在整个视频中追踪不同的实例。为了让来自不同帧的实例信息帮助MTFA更好完成视频实例分割任务,提出了基于注意力的特征融合模块,借助该模块就能够对成像质量较差(遮挡、模糊等)的帧中实例进行更好的分割掩码生成。同样的设定时刻t的帧为目标帧,时间段内的其他T帧为支持帧。下面的关键是如何有效地聚合这些特征并生成质量更好的分割掩码。由于实例在某些帧中可能是模糊的,而在其他帧中可能是清晰的,因此很自然地想到学习一组注意力权重来聚合它们。目前的多头自注意力网络[7]可以通过不同的通道关注来自不同子空间的信息。因此MTFA构建了一个多头注意力模块来处理特征聚合中的不同模式,如图5所示。

输入是一组以目标帧为中心支持帧总数为T的帧中某一实例特征Ft±T/2。目标帧利用原图检测框坐标点映射到特征图进行定位提取检测框中的H×W×c的特征图[8],支持帧的特征通过对T帧内同实例检测框裁剪&变形提取得到T×H×W×c的特征图,这里使用的是经过FPN提取的4层256通道的特征图,对每层进行上述操作。用K个注意力模块从不同维度聚合这些特征。

首先,将Ft±T/2中的目标特征沿通道维度分成K组:

(2)

其中,Ft±T/2∈RH×W×(c/K)并且k∈{1,2,…,K},每个Ft±T/2用于生成一个注意力权重图:

(3)

(4)

1.4 损失函数

MTFA总的损失函数包含目标检测、目标分割和目标追踪这三个方面的损失,具体的损失项如下式所示:

Lall=Ldet+Lmask+Ltrack

(5)

其中,Ldet是目标检测损失函数,Lmask是目标分割损失函数,Ltrack是目标追踪损失函数。Ltrack的定义已在上文中给出,Lmask是Dice loss[9],如下式所示:

(6)

其中,mi是预测掩码,mj是真实掩码,Ldet包含类鉴别损失和检测框损失,其中类鉴别损失是Focal loss[10]计算多分类的准确性,检测框损失是L1 loss计算检测框真实坐标与预测坐标的平均差值。

(7)

2.1 实验数据和评价指标

该文的实验数据集是公开的VIS数据集Youtube-VIS 2019[2]和Youtube-VIS 2021,遵循大多数以前的工作[2,5,11]在测试集上评估提出的方法。

评估指标是平均精度(AP)和平均召回率(AR),以视频预测目标掩码序列与真实掩码序列的交集/并集(IoU)为阈值[2]。具体来说,该文的AP是按照多个IoU为阈值得到的精度(precision)取的平均值,AR定义是视频里固定数量(该文为1和10)检测结果最大的召回率(recall)。这两个指标都先在每个类别内求平均,再在所有类别上求平均,计算公式如下:

(8)

其中,TP代表正样本归为正类的数量,FP代表负样本归为正类的数量,FN代表正样本归为负类的数量。对于IoU的计算,预测掩码mi和真实掩码mj的交并集为:

(9)

根据定义,如果模型仅成功检测和分割实例但未成功关联实例,它仍然得到很低的IoU。因此实例的准确跨帧关联对于实现模型高性能至关重要。

2.2 实验设定

该方法基本的训练设置主要遵循QueryInst[6]。检测头包含6个阶段,查询总数设置为100。采用ResNet-50和ResNet-101作为骨干网络,并使用 COCO数据集预训练的权重进行参数初始化,运动跟踪头为3层卷积神经网络,每层包含一个卷积层、一个归一化层和一个ReLU的激活函数层。注意力融合模块的注意力块个数K设置为4,微型嵌入网络uk(·)为3×3的卷积层。代码在训练和测试阶段均使用了基于Pytorch的MMDection[12]和MMTracking[13]提供的开发框架。

对于训练,在8个12G显存的GPU上执行了总共36轮迭代训练,对于每次迭代,batch size设置为5,使用SGD作为优化器。初始学习率为1.25×10-4,在第27和第32轮迭代,学习率除10。使用Youtube-VIS数据集进行训练,输入为同一个视频的5帧,每帧为原视频间隔5帧的关键帧,遵循之前的工作[2-3,14-15]调整输入图像的大小,使输入尺寸为640×360。

对于测试,使用一个12G显存的TiTan XP进行评测,来自同一视频的4帧(支持帧)与目标帧一起被采样。如果支持帧超出视频开始/结束,复制视频的第一帧/最后一帧作为支持帧。跟踪头用于关联实例,实例掩码是从最后阶段图像实例分割网络中生成的。评测阶段的所有输入图像都被调整大小,使输入尺寸为640×360。

2.3 实验结果对比

在Youtube-VIS 2019的实验结果以及与现有方法的对比见表1,表中列出了不同方法所用的骨干网络,处理视频的分辨率均为640×360。

表1 Youtube-VIS 2019数据集与现有方法性能比较

文中方法在所有评价指标上都取得了相当有竞争力的结果,在ResNet-50骨干网络下取得了38.3% AP,在ResNet-101骨干网络下取得了41.2% AP,表中其他方法数据均来自于原论文。具体来说,比此前最通用的方法,同样使用“检测-跟踪”方式的MaskTrack R-CNN[2]AP高出约10个百分点(在ResNet-101的情况下)。比起所对比的最好方法VisTR[14]高出2.1个百分点,CrossVIS[11]和SG-Net[15]高出3.5个百分点(在ResNet-50的情况下)。最后相比较文中的baseline QueryInst[6]高出约2.1个百分点,充分说明了文中添加模块的作用。

在Youtube-VIS 2021的实验结果以及与现有方法的对比见表2。由于对比方法未提供ResNet-101的相关数据,这里仅展示文中方法在ResNet-101骨干网络下的性能表现。

表2 Youtube-VIS 2021数据集与现有方法性能比较

特意选择了与该文使用同样的“检测-跟踪”范式的方法,可以看到文中方法性能最好。其中Mask Track R-CNN[2]仅使用特征信息关联实例,MTFA结合了运动与特征来关联实例。Sip Mask-VIS[5]仅使用当前帧信息生成掩码,MTFA让不同帧实例的特征信息协助生成掩码。与Cross VIS[11]利用帧级别信息协助生成掩码不同,MTFA利用实例级别的信息生成掩码,效果更好。

2.4 消融实验

为了验证该文添加模块的作用,在ResNet-50骨干网络下进行了消融实验,分别比较了仅添加运动跟踪头和添加了特征融合模块的网络性能,结果如表3所示。

表3 消融实验

表中Tracker代表运动跟踪头,FA代表特征融合模块。通过消融实验可以看到在添加了运动跟踪头后,MTFA相比baseline(QueryInst)已经有了很大提升(约1.7个百分点),但是没有充分发挥出跟踪器对检测结果的作用,在添加了特征融合模块后,MTFA比较添加跟踪器的方法也有了一定提升。这表明好的跟踪结果对于视频实例分割的作用是巨大的,因为MTFA特征融合的模块建立在运动跟踪的结果之上,所以不能单独作消融实验,可以看到MTFA两个模块在视频实例分割任务中是相辅相成的。

2.5 参数影响分析

MTFA的网络主要包含两个超参数,注意力模块个数K和支持帧数量T,为了充分探讨网络受超参数的影响,对于K在T=4的情况下使用不同的K进行了实验,比较了不同参数下网络的性能,结果如表4所示。

表4 不同数量的注意力模块对于网络性能的影响

表4显示了在 FA 中使用不同数量的时间注意块的效果。

随着K从 1 增加到 4,AP从 37.9%增加到 38.3%。

这表明使用更多的时间注意力块可以提高准确性。但当K大于4时性能饱和且消耗更多资源。因此,选择K=4作为默认设置。

关于T的数量对性能的影响,也对此进行了实验,此时将K设置为4,结果如表5所示。

表5 不同数量的支持帧对网络性能的影响

表5显示了不同数量支持帧对网络性能的影响。可以看到,支持帧数量从2~4的提升很大,4~6性能不变,6~8性能下降,推断是此时融合了过多噪声信息并且最后直接对特征使用加和操作导致无法过滤无用信息导致的。因此将支持帧个数T设置为4。

2.6 结果可视化

图6展示了MTFA在Youtube-VIS数据集和部分自己测试数据使用ResNet-101为骨干网络得到的可视化结果,以一个视频的5帧为例,前后帧中同一实例用相同颜色的掩码进行标记。

第一列展示了同一实例不同姿态以及部分遮挡的分割结果,总体来说分割效果是比较好的,但是在毛发边缘模糊的部分分割效果不是太好。

第二列展示了多个同类实例高速运动和大量重叠时的分割结果,可以看到MTFA无论分割还是追踪效果都非常出色,图片中的物体微小的边角也被识别分割出来,分割边缘也比较清晰。第三列展示了两个同类物体靠近交错时的跟踪效果和分割结果,可以看到在实例交错时,分割掩码边缘仍然是清晰没有杂乱的,追踪也没有混乱。

本文提出了一种基于运动跟踪和注意力特征融合的方法 MTFA。该方法充分利用运动信息和特征相似性加强了对实例身份的跟踪操作,并利用跟踪结果对模糊不清或被遮挡的帧中实例进行特征融合从而实现更好的分割。MTFA在 Youtube-VIS 2019 和 Youtube-VIS 2021 测试中对比目前许多主流方法都取得了相当有竞争力的结果。此外,经过消融研究表明,MTFA的运动跟踪和注意力特征融合结合的模块可以显著提高视频实例分割的性能。

猜你喜欢 实例注意力特征 离散型随机变量的分布列与数字特征中学生数理化(高中版.高考数学)(2022年3期)2022-04-26让注意力“飞”回来小雪花·成长指南(2022年1期)2022-04-09如何培养一年级学生的注意力甘肃教育(2020年22期)2020-04-13抓特征解方程组初中生世界·七年级(2019年5期)2019-06-22不忠诚的四个特征当代陕西(2019年10期)2019-06-03A Beautiful Way Of Looking At Things第二课堂(课外活动版)(2016年2期)2016-10-21完形填空Ⅱ高中生学习·高三版(2014年3期)2014-04-29完形填空Ⅰ高中生学习·高三版(2014年3期)2014-04-29抓特征 猜成语阅读(中年级)(2009年11期)2009-04-14

推荐访问:分割 跟踪 实例

版权声明:

1、本网站发布的作文《基于运动跟踪与特征融合的视频实例分割方法》为爱作文网注册网友原创或整理,版权归原作者所有,转载请注明出处!

2、本网站作文/文章《基于运动跟踪与特征融合的视频实例分割方法》仅代表作者本人的观点,与本网站立场无关,作者文责自负。

3、本网站一直无私为全国中小学生提供大量优秀作文范文,免费帮同学们审核作文,评改作文。对于不当转载或引用本网内容而引起的民事纷争、行政处理或其他损失,本网不承担责任。

热门专题