首页作文素材好词好句历史典故写作技巧考场素材单元作文英语作文小升初作文名人故事时事论据 名言警句范文大全精美散文
小学作文
初中作文
高中作文
作文体裁

基于卷积神经网络模型的照片精细化识别研究

时间:2023-07-11 02:50:03 来源:爱作文网  爱作文网手机站

张俊鑫,郭海京,3*,唐孝培,金诗程

(1.广东省国土资源测绘院,广东 广州 510500;
2.中山大学地理科学与规划学院,广东 广州 510275;
3.自然资源部华南热带亚热带自然资源监测重点实验室,广东 广州 510663)

深度学习是特殊的机器学习算法,其模型是深层的人工神经网络。深度学习最早由多伦多大学教授Hinton[1-2]提出,是指一种模拟人类大脑研究学习的人工神经网络算法。其主流算法包括受限波尔兹曼机(RBM)、深度信念网络(DBN)、卷积神经网络(CNN)以及自动编码器(AE)等,后3 种算法广泛应用于遥感影像分类与识别中,以CNN 模型最为典型[3]。然而,影像数据局限于单一视角,主要关注于目标的空间布局特征,忽略了剖面和层次特征,无法实现更细致的分类[4]。因实景照片多视角、高分辨率等特点,研究者开始关注基于照片的分类方法,通过深度学习CNN对照片进行识别[5-6],实现更加精细化的分类。

本文提出一种轻量化的神经网络模型,基于三调照片实现地表覆盖类型的精细化识别。实验中,以广东省部分县区为对象,利用8 037 张三调照片样本进行模型训练与分类实验研究,取得了较好的效果。研究结果表明,运用轻量化神经网络模型检测三调实地照片,可以识别地表上的柚子、香蕉、菠萝等作物,满足国土空间的精细化管理需求,同时为广东省地区的耕地恢复潜力分析提供数据支撑。

本文使用广东省部分县区的三调照片作为模型的验证与分析数据,对野外实地拍摄的照片进行人工标注,照片像素为1 920×1 080,共标记了8 037 张照片用于模型的训练与验证,其中菠萝照片4 073 张、柚子照片1 798 张、香蕉照片538 张、其他照片1 628张(如表1所示),样本照片如图1所示。

表1 样本类别及数量

图1 样本照片

卷积神经网络的参数量通常较多,在实际应用中受到计算能力的限制,为了使得本文的方法能够得到大范围推广应用,本文的核心目的是提出一个轻量化的神经网络模型,减少模型的计算量与参数量,具体的网络结构见图2。基础网络结构的灵感来自于EfficientNet[7],主要包含CSPMBConv 和CSPMBConvBlock等基础模块,各模块的详细结构见图3。同时考虑到三调数据的场景特征丰富,在网络中加入了多尺度特征融合,有效获取不同尺度的场景特征信息。基于此,本文提出了一个高效多尺度场景卷积神经网络(efficient multi-scale context network,EMCNet)。

图2 网络结构图

图3 网络模块细节图

神经网络通常是由许多卷积层构成,一个卷积网络层i可以定义为一个函数:Yi=Fi( )Xi,其中Fi是算子,Yi为输出张量,Xi为输入张量,张量形状为Hi,Wi,Ci,其中Hi和Wi为输入张量的空间分辨率大小,Ci为通道数量。卷积神经网络N可以由一系列卷积层来表示:

在实际应用中,卷积神经网络层通常被划分为多个阶段,每个阶段的所有层都具有相同的结构,例如ResNet[8]有5个阶段,除了第一层进行下采样外,其余每个阶段的卷积层都包含相同的卷积类型。因此,我们可以将卷积神经网络定义为:

式中,FLi i为卷积层Fi在第i阶段重复了Li次;
Hi,Wi,Ci为第i层的输入张量X的大小。

与常规的卷积神经网络设计主要关注于寻找最佳的网络层结构Fi不同,模型缩放试图扩大网络深度(Li)、宽度(Ci)以及分辨率(Hi,Wi),而不改变基础网络中预定义的Fi。通过修正Fi,模型缩放简化了计算资源约束下的模型结构设计问题,但仍有很大的空间去探索网络每一层中不同的Li,Ci,Hi,Wi组合。为此,谷歌大脑团队提出了EffcientNet[7],可以将网络缩放表述为一个优化问题:

式中,w,d,r为网络缩放的宽度、深度和分辨率的系数;
F^i,L^i,C^i,H^i,W^i为基础网络中预定义的参数。

网络缩放的主要难点在于最优的d,w,r存在相互依赖,且在不同的资源约束下取值也会发生变化。正是由于这个难点的存在,传统方法一般只考虑其中一个参数的变化。

缩放网络深度是许多卷积网络最常用的方法[8,10-11]。理想情况下,更深层的卷积神经网络可以捕捉到更丰富、更复杂的特征信息,并且同时可以保持良好的泛化能力。然而,梯度消失问题会导致更深的网络也更难以训练[12]。尽管近年来提出的跳跃连接(skip connections)[8]和批归一化(batch normalization)[13]缓解了训练问题,但更深的网络所带来的精度增益逐渐减小。例如ResNet-1000 虽然有更多的层,但精度与ResNet-101相似。

缩放网络宽度通常用于小尺寸模型[14-16]。在Zagoruyko[12]的研究中,更宽网络模型往往能够获取更细粒度的特征,也更容易训练。然而,极宽但较浅的网络往往难以捕捉更高层次的特征。

使用更高分辨率的输入图像,卷积神经网络可以获取更细粒度的特征。从早期VGG[21]、AlexNet[22]等网络的224 输入大小开始,现代卷积神经网络倾向于使用299×299[10]或331×331[17]的输入大小来获得更好的精度。Huang[18]等通过输入480×480的大小实现了最优的网络分类精度,分辨率为480×480。而更高的分辨率,如600×600,也被广泛应用于目标检测网络中[19-20]。

平衡网络深度、宽度和分辨率3 个维度获得更好的准确率和效率,EfficientNet 使用复合系数φ对3 个维度进行缩放,具体如下:

式中,α,β,γ为对应d,w,r运行维度的资源分配参数;
φ为资源控制系数;
在满足约束条件的情况下,通过神经架构搜索对各参数进行优化调整;
在参数量和运算量不增加的基础上,EfficientNet 模型通过不断调整网络深度、网络宽度和图像分辨率的系数达到最优的精度。

网络缩放实现了最优的输入分辨率,网络深度以及网络宽度的组合,能够在减少网络参数量的同时保证网络的分类精度。而有效的网络结构也能够减少网络的参数量[23]。最近提出的跨阶段局部网络(CSPNet)[24]在减少计算量的同时可以实现更丰富的梯度组合。CSPNet 是通过将基础层的特征图划分为两部分,然后通过提出的跨阶段层次结构将其合并来实现的。其主要思想是通过分割梯度流,使梯度流通过不同的网络路径传播。现有的CNN 通过轻量化后,准确率大大下降,而CSPNet 能够加强CNN 的学习能力,使其在轻量化的同时保持足够的准确性。同时,过高的计算瓶颈会导致更多的循环来完成推理过程,或者一些算术单元会经常闲置。而CSPNet能够将计算量均匀的分布在CNN 的每一层,从而有效的提升每个计算单元的利用率,减少不必要的计算消耗。

3.1 实验流程

本文所采用的实验流程如图4 所示,从三调数据筛选出部分样例照片,并对照片进行工标注,然后根据样例照片制作数据集,将数据集按照7∶3的比例划分训练集与测试集。训练过程中对数据进行随机增强,包括水平翻转、镜像翻转、上下翻转、高斯噪声模糊、0~15°的随机旋转,然后将数据采样至512×512的大小并归一化输入进网络进行训练。训练结束后对模型进行测试,获取模型的测试精度,检验模型的鲁棒性。

图4 实验流程图

3.2 参数设置

本文训练所使用的框架为pytorch,训练周期为100,优化器选择SGD,初始学习率为0.01,衰减系数为0.000 1,学习率采用WarmUp学习率调整策略,后续学习率每25 个周期衰减10 倍,训练过程中采用NVIDIA GTX 2080 ti GPU进行加速。

由于训练数据存在不均衡的现象,本文的损失函数并未使用普通的交叉熵损失函数,而是对交叉熵损失函数进行了加权,加权的交叉熵损失函数公式如下:

3.3 结果与分析

在对网络模型进行训练后,加载模型的训练权重,并利用预先划分的测试集对模型进行测试,测试的结果如图5 展示的混淆矩阵所示。可以看到各个类别的分类精度均达到了非常高的精度,整体误分情况较少,测试集的F1-score达到了0.988 3,这说明本文提出的网络模型能够有效捕获三调数据的场景特征,提升最终的分类精度。

图5 测试集混淆矩阵

为验证本文提出的模型的有效性,本文对比了Inceptionv3[11],ResNet101[7],DenseNet169[9],ResNeXt50[25]和WideResNet50[12]5 种模型,在实验参数上保持一致,得到的结果如表2 所示。根据结果可以看出,本文的网络模型在精度上均优于其余模型,并且参数量较少,其余模型参数量均在千万级别,本文的方法参数量在百万级别。在计算量方面,以输入512×512 大小为基准,统计了各个模型的计算量,其中WideResNet50的计算量最高,达到了119.4 BFLOPs,其余模型也均超过30 BFLOPs,可以看到主流网络模型的计算量均较高,不适合大规模推理预测,耗费时间的同时也需要消耗大量的计算资源。而本文提出的模型计算量仅为15.3 BFLOPs,在减少计算量的同时并没有降低模型的精度,由此可见,本文提出的模型无论在速度和精度方面均有所提高。

表2 EMCNet与主流网络模型的对比结果

本文提出了一种轻量化的神经网络模型,该模型利用了最新的网络缩放技巧,综合精度与效率,并对特征进行跨阶段融合,能够对特征进行有效利用。与目前主流的神经网络模型进行对比,本文提出的模型不仅在速度上具有较大的优势,且在精度上也表现更优,在实际的场景应用中能够达到较高的分类精度,可以实现利用该模型对三调数据进行自动筛选,有效提高筛选效率,减少人工参与,具有重要的推广意义。

猜你喜欢轻量化分辨率卷积汽车轻量化集成制造专题主编精密成形工程(2022年2期)2022-02-22基于3D-Winograd的快速卷积算法设计及FPGA实现北京航空航天大学学报(2021年9期)2021-11-02EM算法的参数分辨率数学物理学报(2019年3期)2019-07-23从滤波器理解卷积电子制作(2019年11期)2019-07-04一种轻量化自卸半挂车结构设计智富时代(2019年2期)2019-04-18一种轻量化自卸半挂车结构设计智富时代(2019年2期)2019-04-18原生VS最大那些混淆视听的“分辨率”概念家庭影院技术(2018年9期)2018-11-02基于傅里叶域卷积表示的目标跟踪算法北京航空航天大学学报(2018年1期)2018-04-20基于深度特征学习的图像超分辨率重建自动化学报(2017年5期)2017-05-14一种改进的基于边缘加强超分辨率算法成都信息工程大学学报(2017年6期)2017-03-16

推荐访问:卷积 神经网络 精细化

版权声明:

1、本网站发布的作文《基于卷积神经网络模型的照片精细化识别研究》为爱作文网注册网友原创或整理,版权归原作者所有,转载请注明出处!

2、本网站作文/文章《基于卷积神经网络模型的照片精细化识别研究》仅代表作者本人的观点,与本网站立场无关,作者文责自负。

3、本网站一直无私为全国中小学生提供大量优秀作文范文,免费帮同学们审核作文,评改作文。对于不当转载或引用本网内容而引起的民事纷争、行政处理或其他损失,本网不承担责任。

热门专题