首页作文素材好词好句历史典故写作技巧考场素材单元作文英语作文小升初作文名人故事时事论据 名言警句范文大全精美散文
小学作文
初中作文
高中作文
作文体裁

基于迁移学习的违约预测模型研究

时间:2023-07-21 09:45:05 来源:爱作文网  爱作文网手机站

杨冰清,赵金虎

(阜阳师范大学 数学与统计学院,安徽 阜阳 236037)

随着互联网技术的发展,互联网金融已经成为金融行业迅速发展的必要途径和趋势。纵观整个互联网金融行业,网络借贷是互联网金融的一个形式,以网络为媒介,给投资人和借款人搭建桥梁,简化银行等金融机构的借贷平台,实现更快、更易、更便捷的借贷活动。其中网络借贷可以细化为五种类型:P2P 网络平台、网络小额贷款、网络现金贷、网络消费贷款和网络套路贷款。其中,网络现金贷作为一种特殊的形式具有如下特点:线上申请、线上放款、金额小、周期短、无资产证明、无征信报告、无抵押物、操作便捷且迅速但利率高等特点[1]。由于现金贷不要求场景依托,贷款会以现金的形式发放到借贷人指定账户,这一方式有别于受限的消费贷款。但是由于借贷过程中不存在对于借贷人的信用、还款能力和还款金额的审核,这会导致借贷人违约率较高,从而削弱平台风险管控能力。因此,建立能适用于网络现金贷场景下且具有高精度的违约模型对我国金融风险预警具有重大意义[2]。

近年来,机器学习由于具有强大的学习能力在信贷违约预测中应用十分广泛。但面对一些现实问题,机器学习并不能很好的解决,且效果也并不能保证,例如:1)各金融机构之间数据不共享,数据积累量不足,尤其是对初创金融机构,小样本数据训练出来的模型精度较差;
2)第三方风控机构需要为每个金融机构单独建模,工作重复且精度无法保证。而迁移学习能利用基于大样本数据量上已经训练的精准模型,迁移到小样本数据中,构建该问题下的模型,提高该问题中构建模型的预测精确度和模型泛化能力。

近年来,在违约预测问题上,更多的学者利用机器学习算法对数据的违约进行定量研究[3-12]。方匡南等人[13]构建lasso-logistic 模型,将两种方法结合,从而实现模型变量选择和违约估计,然后对比lasso-logistic 模型、全变量logistic 模型、逐步回归logistic 模型,发现该模型预测准确率更高。涂艳等[7]基于拍拍贷真实交易数据建立logistic 模型、BP 神经网络、支持向量机和随机森林模型,结果表明在违约准确率方面机器学习方法普遍高于传统回归模型。朱兵等人[8]通过对历史违数据的1 141 个违约样本的学习,提出将这1 141 个样本的“信息迁移”,帮助解决不平衡问题。但是上述这些机器学习方法都不能解决现实存在的跨平台、跨知识的大样本信息预测新问题。而迁移学习具有跨任务传输知识的能力,能够做到聚焦解决数据量和模型的迁移[14]。由于神经网络算法在图像识别、语音识别、文本挖掘等多方面都取得了显著的改进和提升。本文将神经网络和迁移学习结合在一起,目的是为了构建能够跨任务利用知识的迁移模型。

在违约预测问题上,目前已有的方法大多是单独运用机器学习或深度学习算法。这些算法被训练来解决特定的任务,不能够进行跨平台、跨知识学习,且一旦特征空间分布发生变化,就必须从新开始构建模型。而迁移学习能够克服孤立的学习范式,其利用从一个任务中对于大量数据的学习,帮助解决类似的小批量数据由于样本不足导致的模型拟合效果差的问题。从而实现跨平台、跨知识对当前特定平台违约数据进行预测。

2.1 迁移学习

Pan 等人[15]用领域、任务和边际概率来描述迁移学习的框架。Cheriyadat[16]和Newsam[17]对迁移学习的历史、分类和挑战进行了详细的解释。迁移学习可以定义:利用DS领域和源任务TS的知识,提升目标领域DT中的目标函数fT(或者目标任务TT)。一种常用且非常高效的方法是使用预训练网路,其中预训练网络是一个保存好的网络,已经在大数据训练集上训练好的网络。使用预训练网络有两种方法:特征提取和微调模型。

2.2.1 特征提取

特征提取是使用之前网络学到的表示,来从新样本中提取出有用的特征,然后将这些特征输入一个新的分类器,从头开始训练。再进一步解释,由于神经网络系统具有层级结构,不同层会学习不同的特征,这些层最终连接到一个最终层,从而获得分类的输出结果。这样的层级结构可以对预先训练好的网络的最终层进行删除,将其输出作为其他任务的特征提取器。

2.2.2 微调模型

一种广泛使用的模型复用方法是模型微调,可以仅对预训练模型的最终层进行替换,也可以选择性的将前面一些层和最终层一起进行重训练,并且在重训练过程中冻结一些初始层,将这种形式称之为微调。其中初始层是通过大量先前知识获取的一般特征,后面的层则迁移到特定任务中,这样可以用更少的训练时间来获得更好的预测性能。

2.2 数据及预处理

2.2.1 数据

本文的数据来自科赛官网中借贷风险评估项目,A 数据中包含4 万条数据,贷款期限为1-3年,平均贷款金额为几千到几万的信用贷款业务。B 数据包含4 千条数据,贷款期限为7-30 天,平均贷款金额为一千的小额短期网络现金贷款业务。

由于网络现金贷款业务属于初期阶段,数据量少,平台评价体系不完善,通过利用业务A 的4万条数据和业务B 的4 千条数据,建立业务B 的信用评分模型。其中业务A 为信用贷款,其特征是债务人无需提供抵押品,仅凭自己的信誉取得贷款,以借款人信用程度作为还款保证;
业务B 为现金贷,现金贷主要具有以下五个特点:额度小、周期短、无抵押、流程快、利率高。由于业务A、B存在关联性,可以将业务A 的知识迁移到业务B上,以增强业务B 的信用评分模型。

2.2.2 预处理

对于A 数据是40 000 个样本,480 个特征。由于数据的项目并没有给出具体每个特征的含义,以及每个特征是连续变量还是定性变量,将每列特征中,特征取值少于10 个取值的作为定性变量,特征取值大于10 个取值的属于定量变量。由于数据中存在缺失值,对于上述假定后,属于定量特征的,用平均值作为缺失值进行填充,属于定性特征,用众数作为缺失值进行填充。然后对上述数据进行降维,将特征从原来480 维度降维到400维特征。

由于原始数据中存在某些超大的特征,数值超过10 万,也存在一些小特征,小于1。为使不同量纲之间的特征具有可比性,消除量纲的差异导致的收敛优化速度缓慢等问题。采用归一化来去除数据单位不统一问题,将所有特征转换到一个特定区间内,公式如下所示:

2.3 预训练网络

预训练网络有两种方法:特征提取和微调模型。特征提取是使用之前网络学到的表示,从新任务中提取有用的特征,然后将这些特征输入一个分类器开始训练。微调模型指的是对于特征提取的冻结基模型,微调其顶部的几层“解冻”,并将解冻的几层与新增加的部分联合训练。

实验采用的基网络如图1 所示,该网络由输入层、隐藏层和输出层组成,其中输入层包含d 个输入神经单元,隐藏层包含k个神经单元,输出层使用的是sigmoid 函数输出0-1 之间的概率大小。输入数据表示为(x(i),y(i)),表示输入第i 个样本的自变量和因变量,其中x(i)为d 维输入向量,y(i)表示第i 个输入向量对应的类别。模型训练包括正向传播和反向传播两个过程,若用xl表示当前层的输出特征向量,则xl-1是第l层的输入特征向量,该层是通过权值向量wl和偏置bl进行线性变换后,又作为激活函数的自变量进行计算,如下所示:

图1 神经网络图

为了防止模型出现过拟合,通过观察每层的单元个数的不同,以及对模型损失产生的影响。下图中左图是单元个数是32 时,损失和epoch 之间的关系,从图中可知当epoch 大于25 后开始出现过拟合。而右图是单元个数是128 时,损失和epoch 之间的关系,图中可知当网络单元个数更大时,模型只经过了一轮就开始出现过拟合,于是选取32 作为预训练模型的单元个数。

预训练模型中传入Dense 层参数为32 作为隐藏层,中间层使用relu 激活函数,最后一层使用sigmoid 激活输出一个0-1 范围内的概率值。由于面对的是二分类问题,使用binary_crossentropy损失,使用rmsprop 优化器,为防止过拟合,在两个隐藏层后使用dropout 层,减少过拟合的存在。

为了避免预训练模型出现过拟合,需要确定合适的epoch。通过下图可知,当epoch 大于100时,精确度和AUC 呈现减少趋势,即出现过拟合显现,设置最大的epoch 为100。

图2 loss 和epochs

图3 precision 和auc

2.4 模型迁移

预训练网络是一个已经在大数据上训练好的网络。当原始的数据量足够大,那么预训练网络借助学习到的只是训练的模型可以作为有效的通用模型,然后将该通用模型迁移到新问题中,即使新问题涉及的类别和原始任务并不相同。

本文构建了基于特征提取的迁移模型,如图4所示。在模型迁移过程中,使用之前网络学习到的表示作为特征提取的有用特征,然后将这些特征输入一个新的分类器开始训练。

图4 特征提取神经网络

另一种迁移方法是利用微调网络进行构建模型的,如图5 所示。在模型迁移过程中将微调后面的全连接层,也就是全连接层1 和全连接层2都被冻结,而全连接层3 可以被训练。模型靠底部的层可以学到更加通用的知识,而靠顶部的层则是能学到更加专业的知识。微调这些更加专业的层,而冻结相对通用的层,可以让模型既能利用到以往大数据的知识,也能适用于新问题。

图5 微调网络

3.1 实验环境

实验在python3.8、keras2.4.2 软件环境下完成。硬件环境中CPUAMD Ryzen9 3900X,主频3.8GHz.

3.2 实验设计

由于该数据存在类别不平衡问题,将下列实验设计在原始数据集上训练,也在综合采样SMOTETomk 算法下获得的数据上训练。考虑计算机性能和数据集整体大小,实验的batch size 设置为1 000。为防止模型过拟合,采用回调函数,patience 设置为5,观测验证损失保指标在多于5轮的时间内不再改善就中断训练,将模型保存用于后续使用,设置验证AUC(Area Under Curve)作为验证指标,优化器采用RMSprop 函数,并且学习率设置为0.001。

3.3 实验结果与分析

原始训练数据包含40 000 个样本,经过SMOTETomek 算法后综合采样的数据包含68 140 个样本。为避免过拟合各组实验采用callbacks 函数,使得模型在刚开始过拟合的时候就中断训练。对于各组实验训练出来的模型在验证数据集上进行评估的结果如表1 所示。

表1 不同因素下模型评估结果

3.3.1 数据采样对模型的影响

违约预测数据具有数据类别不平衡的特征,针对该现象采用SMOTETomek 算法进行综合采样,发现无论是在logistic 方法上,还是在迁移学习的两种方法上,综合采样都得到相比原始数据更好的结果。其中logistic 方法中,综合采样得到的AUC 相比原始数据提升4.17%,特征提取迁移学习方法中综合采样方法的AUC 相比原始数据的AUC 提高36.6%。微调迁移学习方法中综合采样的AUC 相比原始数据的AUC 提高4.6%。

3.3.2 迁移学习对模型的影响

对于迁移学习思想两种方法,通过表1 可知,无论对于原始数据还是综合采样后的数据,利用迁移学习思想比传统机器学习方法如logistic 方法得到更高的AUC 值。对于原始数据,基于特征提取的迁移学习得到的AUC 相比logistic 方法提升11.79%,基于微调的迁移学习方法得到的AUC相比logistic 方法提升15.87%。对于经过综合采样后的数据,基于特征提取的迁移学习得到的AUC 相比logistic 方法提升46.59%,基于微调的迁移学习得到的AUC 相比logistc 方法也提升了16.34%,迁移学习的两种方法相比传统机器学习有更高的AUC。

(1)对于类别不平衡数据,对数据进行合适的综合采样可以从数据角度提升模型的性能,无论是对于传统机器学习方法还是迁移学习的方法。

(2)迁移学习弱化了模型对于数据量的需求。可以通过对相似的大数据训练基模型,利用基模型学习到的知识迁移到特定的小数据中,从而弱化模型对于数据量的需求,使得小样本也能得到较好的效果。

(3)对于违约预测问题,目前有很多基于机器学习的方法,但很少将该问题用迁移学习的方法解决。由于迁移学习的优点,对于特定个性化的场景下可以利用已知的知识来提升模型效果。且基于迁移学习方法的模型最终在测试数据集上确实得到相比传统机器学习logistic 算法更高的AUC。

猜你喜欢微调原始数据特征提取GOLDEN OPPORTUNITY FOR CHINA-INDONESIA COOPERATIONChina Report Asean(2022年8期)2022-09-02乐海乐器“微调轴”研发成功乐器(2021年1期)2021-09-10受特定变化趋势限制的传感器数据处理方法研究物联网技术(2020年12期)2021-01-27基于Daubechies(dbN)的飞行器音频特征提取电子制作(2018年19期)2018-11-14灵活易用,结合自动和手动微调达到好效果 StormAudio ISP 3D.16 ELITE/PA 16 ELITE家庭影院技术(2017年10期)2017-11-23全新Mentor DRS360 平台借助集中式原始数据融合及直接实时传感技术实现5 级自动驾驶汽车零部件(2017年4期)2017-07-12Bagging RCSP脑电特征提取算法自动化学报(2017年11期)2017-04-04基于MED和循环域解调的多故障特征提取噪声与振动控制(2015年4期)2015-01-01隐显结合 听读辩证——高职高专听读模式教学方法与实践的总结、理论适用及模式微调卫生职业教育(2014年12期)2014-05-16世界经济趋势中国石油石化(2013年5期)2013-05-03

推荐访问:违约 迁移 模型

版权声明:

1、本网站发布的作文《基于迁移学习的违约预测模型研究》为爱作文网注册网友原创或整理,版权归原作者所有,转载请注明出处!

2、本网站作文/文章《基于迁移学习的违约预测模型研究》仅代表作者本人的观点,与本网站立场无关,作者文责自负。

3、本网站一直无私为全国中小学生提供大量优秀作文范文,免费帮同学们审核作文,评改作文。对于不当转载或引用本网内容而引起的民事纷争、行政处理或其他损失,本网不承担责任。

热门专题