首页作文素材好词好句历史典故写作技巧考场素材单元作文英语作文小升初作文名人故事时事论据 名言警句范文大全精美散文
小学作文
初中作文
高中作文
作文体裁

融合方向感知Transformer的目标情感分析

时间:2023-02-15 15:20:15 来源:爱作文网  爱作文网手机站

蔡瑞初,尹 婉,许柏炎

(广东工业大学 计算机学院,广州 510006)

随着深度学习技术提升,句子级别的情感分析研究取得巨大进展,已被广泛应用到社交网络舆情分析和电子商务等场景.基于目标的情感分析(Target-Based Sentiment Analysis)是一种细粒度的情感分析任务,旨在识别句子中的目标并预测目标的情感极性,其中包括目标提取和特定目标情感分析两个子任务[1].如图1所示,当输入句子“这家中国餐厅比上次那家昂贵的泰国餐厅更好吃”,应提取出该句子中包含的目标“中国餐厅”和“泰国餐厅”,并预测出目标“中国餐厅”的情感为积极,目标“泰国餐厅”的情感为消极.

图1 基于目标的情感分析任务

现有大多数情感分析研究工作只关注解决目标提取或特定目标情感分析.少数研究工作同时解决两个子任务.根据协同子任务训练方式的不同,可以划分为流水线方法、联合方法和统一方法.研究者[2,3]将基于目标情感分析任务建模成序列标注问题,利用神经网络和条件随机场技术实现3类方法.

其中,流水线方法需要按次序分别训练目标提取模型和特定目标的情感分析模型,缺乏集成度和存在误差传播等问题;联合方法是采用两个不同的标签集共同标记每个句子,统一方法则是将两个标签折叠成一个统一标签.联合方法和统一方法可采用端到端的训练方式.

然而,现有研究中仍然存在以下不足:1)基于长短期记忆网络模型无法很好地捕获输入文本的内部联系.随着输入文本距离的增加,学习较远位置之间的依赖关系变得困难[4].因此当输入句子中的目标词与情感词距离较远时,无法学习到两者之间的联系,容易导致目标词情感极性判断错误;2)现有工作无法很好地利用子任务的信息来协助目标和情感的同时产生.显然,其中的关键是引入无距离限制的语义提取方法.

因此,本文提出一种基于方向感知Transformer的双辅助网络模型.模型包含语义特征提取组件,双辅助任务分支和目标情感分析主线网络.通过引入方向感知的Transformer(Direction-Aware Transformer,DAT)[5]用于提取源输入序列的语义特征,DAT是一种可以提取句子语义特征和学习源输入中目标词和情感词内在联系的组件.DAT组件不同于长短期记忆网络需要依赖上个时间步的隐向量,其任意两个单词的依赖计算为常数级别,可以捕获的相关性范围更广,能更好地捕获到情感词和目标词之间的联系.双辅助任务分支是指目标提取网络和情感增强网络,目标提取网络有助于捕获目标词的边界信息,情感增强网络有助于捕获目标词对应的情感信息.本文引入双辅助任务分支可以充分利用子任务的信息辅助边界表示和情感表示,辅助模型分别去学习两种不同类型的标签.目标情感分析主线网络用于输出统一标签,将双辅助任务分支输出的隐向量融合后输入到目标情感分析主线网络得到最终的统一标签.

本文的主要总结如下:

1)在基于目标的情感分析任务引入相对位置编码的Transformer,学习句子中单词和情感词的内部联系.

2)构建目标提取和情感增强双辅助分支,融合子任务的信息,辅助目标情感分析主线网络生成统一标签.

前文提及,基于目标的情感分析包括目标提取和特定目标的情感分析两个子任务.多数经典研究工作专注于研究其中一类子任务,近来少数研究工作开始着手同时解决目标提取和情感分析.本章节将依次进行介绍,另外序列标注的相关工作也将被讨论.

2.1 目标提取和特定目标情感分析

目标提取任务研究中,Fan等[6]基于长短期记忆网络建模,将目标信息和上下文信息融合,学习特定目标的上下文表示,成对提取意见目标和意见词.Luo等[7]提出一种无监督神经网络框架,充分利用语义符号增强词汇中的语义,发现单词之间的一致性.Liao等[8]采用无监督方式基于神经网络建模,耦合全局和局部表示来提取目标方面.

特定目标的情感分析任务的研究中,Chen等[9]基于双向切片门控循环单元和注意力机制建立情感分类模型,充分提取文本语义特征.Zhao等[10]利用文档级情感分类数据集的注意力知识提高方面级情感分类任务的注意力能力,解决方面级情感分类任务中数据稀缺性导致注意力机制无法集中在情感词的问题.Wang等[11]提出一种基于注意力机制和长短期记忆网络的模型,可以有效捕捉目标与情感表达式之间的结构依赖关系.Zhang等[12]提出基于有序神经元长短时记忆和自注意力机制的方面情感分析模型,从上下文的左右两个方向同时进行训练.Chen等[13]使用门控循环神经网络和卷积神经网络分别从字向量和词向量中提取特征,获取上下文语义特征和局部语义特征,提高文本情感分类的性能.然而在情感分析的实际应用中,单独处理两个子任务的研究具有一定的局限性,同时处理两个子任务的研究在实际应用具有更广泛的价值.

2.2 基于目标的情感分析

基于目标的情感分析的研究方法需要同时解决目标提取和特定目标情感分析两个子任务.现有的研究工作可以分为流水线方法、联合方法和统一方法.Zhang等[3]基于神经网络建模实现3类方法,通过浅层神经网络自动提取特征.通过流水线方法组合基于深度学习的目标提取任务模型HAST[14]和基于循环神经网络和卷积神经网络的情感分析任务模型TNet[15].Peng等[16]首次为方面提取,方面情感分类,以及意见词提取提供一个完整的解决方案.Li等[17]提出基于堆叠长短期记忆网络的端到端情感分析模型E2E-TBSA,上下层网络分别预测统一标签和目标边界标签,采用目标词边界信息引导组件约束统一标签生成,取得显著的提升效果.

流水线方法需要按次序分别训练目标提取模型和特定目标的情感分析模型.联合方法是联合训练两个子任务,而统一方法将两个子任务标签折叠成一个统一标签.联合方法和统一方法实现端到端的训练方式相比流水线方法单独训练模型具有更好的集成性.与E2E-TBSA模型不同,本文引入融合方向感知的Transformer解决了长短期网络无法很好的捕捉内部联系的问题,并设计双辅助网络用于辅助目标情感分析主线网络学习.

本文提出基于双辅助网络的目标情感分析模型 DNTSA(Dual-assist Network based framework for Target Sentiment Analysis),主要由目标提取网络、情感增强网络和目标情感分析主线网络组成.如图2所示.模型工作流如下,输入句子S经过词嵌入层后分别输入到目标提取网络和情感增强网络中.词嵌入层采用了预训练Glove词向量[18].目标提取网络中的融合方向信息Transformer(Direction-Aware Transformer,DAT)用来获取目标的边界信息,情感增强网络中的DAT用来获取目标的情感信息.目标提取网络和情感增强网络得到的隐藏表示相加,输入到目标情感分析主线网络中的DAT融合辅助信息到目标情感分析主线网络,最终预测统一标签序列.

图2 基于双辅助网络的目标情感分析模型DNTSA

3.1 融合方向信息Transformer

与现有的基于目标的情感分析工作普遍采取长短期记忆网络不同,本文引入DAT 作为语义特征提取器学习语义信息,提取原始词向量和双辅助任务分支学习的特定表示语义信息.DAT通过相对位置编码具有方向感知.在基于目标的情感分析任务中,DAT组件相比长短期记忆网络能更好的获取到距离较远两个词之间的语义信息,也能具有长短期记忆网络方向感知的优点.本节详细介绍DAT组件的相对位置编码与多头注意力机制.

3.1.1 相对位置编码

Transformer[4]中位置编码采用正弦余弦的点积,如公式(1)、公式(2)所示:

(1)

(2)

DAT采用相对位置编码,t表示当前单词的索引,j表示上文单词的索引,Rt-j表示t和j之间的相对位置编码,如公式(3)、公式(4)所示:

(3)

(4)

因为sin(x)=-sin(x),cos(x)=cos(-x),公式(4)中cos(cit)的前向和后向相对位置编码是相同的,但是sin(cit)前向和后向的位置编码是相反的.因此相对位置编码具有方向感知.

3.1.2 多头注意力机制

DAT组件中注意力机制得分计算如公式(5)、公式(6):

(5)

(6)

多头注意力机制将多组Q,K,V分别进行多次注意力机制计算并将结果拼接,最后用前馈神经网络连接多头注意力机制的输出,计算如公式(7)、公式(8)所示:

multihead(Q,K,V)=concat[head1,…,headn]Wo

(7)

headi=attention(Qi,Ki,Vi)

(8)

其中n是头的数量,i表示头索引.

3.2 双辅助网络

与E2E-TBSA模型只采用目标提取子任务信息不同,本文采用双辅助网络:目标提取网络和情感增强网络,共同获取目标边界和情感的信息,增强模型目标提取和情感识别能力.

(9)

(10)

(11)

(12)

(13)

(14)

3.3 目标情感分析主线网络

(15)

在一个多单词构成的目标中,目标内单词的统一标签需要保持情感一致.例如目标词“中国餐厅”的统一标签为"B-POS,E-POS",词语“中国”和词语“餐厅”的情感标签需要保持一致性.如公式(16)、公式(17)所示,本文利用门控制机制gt[16]保持多单词目标的情感一致性,当前时间步特征依赖上一步时间步特征.其中是Wg,bg为模型参数.

(16)

(17)

(18)

(19)

损失函数如公式(20)所示:

J(θ)=LSE+LTE+LU

(20)

J(θ)为总损失函数,LU为预测统一标签任务的损失函数,LTE和LSE分别为边界增强和情感增强辅助任务的损失函数.

损失函数的计算基于单词级别,采用交叉熵计算,如公式(21)所示.

(21)

本节将详细介绍实验采用的数据集和模型的超参数设置,通过实验来评价提出模型的性能,包括两个部分:1)从整体的角度来与基准方法比较在各评价指标上的结果差异;2)从局部模型设置有效性的角度来确定整体模型中的关键部件对结果的影响.

4.1 数据集介绍

为了验证基于目标的情感提取模型的通用有效性,本文实验采用了3个不同领域的开源数据集进行测试:

1)Laptop数据集是2014年SemEval ABSA挑战赛[1]针对笔记本电脑领域的公开文本评论数据集,训练集共3045条句子,测试集共800条句子.

2)Restaurant数据集是2014年、2015年、2016年SemEval ABSA挑战赛[19-21]餐厅文本评论数据集的并集,本文的数据集是3年的数据集的并集,训练集共3877条句子,测试集共2158条句子.

3)Twitter数据集是Mitchell等[2]收集的推特推文组成,训练集共21150条句子,测试集共2350条句子.

数据集中的情感极性主要包括积极、消极、中性,训练集和测试集的具体数量如表1所示.本文随机保留训练集数据的10%作为验证集.对于Twitter数据集,没有标准的训练集和测试集的划分,沿用基准方法的划分方式[3,17],采用十折交叉验证得出最终结果.

表1 数据集表

4.2 超参数设置和评价指标

关于实验超参数设置,列举如下:词向量和隐状态维度大小均为300维;使用预训练Glove词向量初始化;对于词典中不存在的词语被随机采样初始化,随机采样服从μ(-0.25,0.25)分布;所有偏差的初始化均服从μ(-0.25,0.25)的随机采样;模型采用Adam优化器,学习率设置为0.0001.详细的模型超参数如表2设置.

表2 超参数表

本文通过完全匹配来衡量评估指标:精确度P、召回率R、F1得分.本文F1采用的是MicroF1.F1计算公式如公式(22)所示:

(22)

4.3 与基准方法对比

基于目标的情感分析任务目前主要存在3种实现方法:流水线、联合、统一.本实验将本文模型与3种方法下的主流模型进行对比,各对比模型简介如下:

1)CRF-{pipelined,joint,unified}[2]:利用条件随机场技术,分别构建流水线、联合、统一的3种模型.

2)NN+CRF-{pipelined,joint,unified}[3]:运用条件随机场技术和神经网络分别构建的3种实现方法模型.

3)HAST-Tnet:HAST[14]利用循环神经网络和注意力机制建模.TNet[15]采用卷积神经网络和双向循环神经网络建模.HAST-TNet是用流水线方法将HAST和TNet用流水线形式组合起来,是当前流水线方法下最前沿的模型之一.

4)LSTM-unified:基于长短期记忆网络的统一方法模型.

5)LSTM-CRF-1[22]:基于长短期记忆网络和条件随机场技术.

6)LSTM-CRF-2[23]:在LSTM-CRF-1基础上增加了卷积神经网络.

7)LM-LSTM-CRF[24]:采用预训练词嵌入和字符级知识,基于长短期记忆网络和条件随机场技术建立神经网络模型.

8)E2E-TBSA[17]:基于双长短期记忆网络的端到端情感分析模型,双网络分别预测统一标签和目标边界标签,是当前统一方法下最前沿的模型之一.

本文与基于目标的情感分析任务的其它模型比较,结果见表3.从表3可以看出,本文的模型优于其它基线.与最佳的流水线模型HAST-TNet相比,本文的模型在数据集Laptop,Restaurant,Twitter上的性能都有所提升,F1值分别提升了7.1%,5.5%,4.7%,相比流水线方法本文采用的统一方法具有更高的集成度,便于同时训练目标提取和情感增强网络.在统一方法中,与E2E-TBSA模型相比,本文的模型在Laptop,Restaurant,Twitter数据集上F1值分别提升了2.3%,1.8%,3.9%,表明在统一方法中,本文模型比E2E-TBSA模型更具有优势,一方面是因为本文模型基于融合方向感知Transformer,不仅相比长短期记忆网络能更好地学习到目标词和上下文之间内部联系,也具有长短期记忆网络方向感知的优点.另一面是因为模型充分利用了两个子任务的信息.此外,在Twitter数据集上提升的效果比其它两个数据集显著,可能是因为Twitter数据集中的长句子较多,而Transformer对比长短期记忆网络在长句子中更具有优势.基准方法实验结果引用Li等[17]的复现结果.

表3 与相关工作的比较实验

4.4 消融实验

本文模型采用了双辅助任务分支和DAT组件,为了探讨两部分对模型结果的贡献度以及合理性,设计以下消融实验来进行有效评估:

1)Model-TEN:在模型的基础上去除目标提取网络;

2)Model-SEN:在模型基础上去除情感增强网络;

3)Model-LSTM:将模型中的DAT组件替换成双向长短期记忆网络;

4)Model-Transformer:将模型中的DAT组件替换成普通Transformer.

从表4的实验结果可以看出,去除目标提取网络以后的模型Model-TEN和原模型相比,在Laptop,Restaurant,Twitter数据集中F1值分别下降了3.9%,1.5%,2.4%.去除情感增强网络以后的模型Model-SEN和原模型相比,在Laptop,Restaurant,Twitter数据集中F1值分别下降了6.3%,1.4%,2.3%.实验结果的下降说明了目标边界信息和情感信息对生成的统一标签起到了一定的作用,双辅助任务分支通过生成边界表示和情感表示辅助目标情感分析主线网络充分利用目标边界信息和情感信息.将DAT组件替换成双向长短期记忆网络以后,模型Model-LSTM和原模型相比,在Laptop,Restaurant,Twitter数据集中F1值下降了3.9%,1%,2.9%,实验结果表明DAT组件比长短期记忆网络在基于目标的情感分析任务中表现更好,DAT组件能更好的学习到目标词和情感词之间的联系.将DAT组件替换成普通Transformer以后,模型Model-Transformer和原模型相比,在Laptop,Restaurant,Twitter数据集中F1值下降了5.2%,2.4%,3.9%,实验结果表明DAT组件中的方向信息对目标情感分析任务有所帮助.另外模型Model-Transformer和Model-LSTM相比,F1值有所下降,虽然普通Transformer缓解了LSTM无法很好捕获长文本句子内部联系的问题,但是普通 Transformer缺乏方向信息,因此可能导致其在目标情感分析任务中整体表现欠佳.

表4 消融实验

4.5 实例分析

表5给出了Model-SEN和Full Model模型的一些预测示例,输入句子得到预测的统一标签.通过分别观察表5中的3个示例,对比两个模型生成的统一标签,可以看出Model-SEN生成的统一标签中边界标签正确而情感标签出现错误,表明Model-SEN在捕获情感信息的时候存在不足之处.可能是由于没有情感增强网络时,模型学习两种不同类型的标签存在一定困难.而 Full Model加入情感增强网络之后,模型可以更好地捕获到情感信息,并正确预测出目标词的情感标签.表6给出了Model-TEN和Full Model模型的一些预测示例.通过观察表6中示例1,2,3,对比两个模型生成的统一标签,可以看出Model-TEN中边界标签产生错误从而导致统一标签错误.而 Full Model加入了目标提取网络之后,模型可以更好地捕获到目标词边界信息,并正确预测出目标词的边界标签.表5和表6两个实例分析表明双辅助任务分支能帮助模型分别学习两种不同类型的标签,使得情感标签和边界标签容易出现错误的问题得到了缓解.

表5 Model-SEN和Full Model模型的实例分析

表6 Model-TEN和Full Model模型的实例分析

类似的,表7给出了Model-LSTM和Full Model模型的一些预测示例.通过观察表7中示例1和示例2我们发现当输入句子中目标词距离情感词有一定距离时,Model-LSTM模型预测的情感标签会出现错误.表7示例1和示例2中,表达情感的情感词分别为"issue"和"dismissive",分别距离目标词"os"和"owner"有一定距离,Model-LSTM产生了错误的情感标签,这可能是由于长短期记忆网络当前时间步计算依赖上一个时间步所导致,当目标词和情感词存在一定距离时,获取到两个词之间的联系信息变得困难.当情感词和目标词距离较远时,基于DAT的Full Model模型对两个输入词之间的依赖计算是常数级别,可以较好的学习到任意两个词之间的内部联系.示例3中目标词"food"附近有情感词"hard"和"fancy","hard"表示消极情感"hancy"表示积极情感.Model-LSTM模型预测的情感标签出现了错误.因此Full Model相比Model-LSTM可以更好地学习到目标词和情感词之间的联系.

表7 Model-LSTM和Full Model模型的实例分析

表8给出了Model-Transformer和Full Model模型的两个预测示例.通过观察表8中示例1、2发现,当输入句子中有不同类型的情感词时,Model-Transformer模型预测的情感标签会出现错误.示例1中,目标词” Hardware performance”上文中存在的情感词” not inexpensive”表示消极情感,下文中存在的情感词” impressive”表示积极情感.示例2中,目标词”waiting”上文中存在的情感词”popular”表示积极情感,下文中存在的情感词”nightmare”表示消极情感.两个示例的预测结果中,Model-Transformer都产生了错误的情感标签,这可能是由于普通的Transformer缺乏方向信息导致的,DAT引入了方向信息后,模型可以更好的学习到句子的语义信息.

表8 Model-Transformer和Full Model模型的实例分析

4.6 注意力机制观察

目标情感分析任务中,多头注意力机制学习目标词的边界信息以及目标词和情感词之间的关系.图3例句所示,目标情感分析主线网络中DAT的注意力机制权重观察(注意力机制权重为多头注意力机制head的平均值).通过观察图3,发现多单词组成的目标词″battery life″″battery″和″life″产生依赖组成短语.目标词″battery life″和情感词″wonderful″产生联系.实验表明目标情感分析主线网络中DAT的多头注意力机制能有效学习目标词单词间的依赖以及目标词和情感词之间的联系.

图3 注意力机制观察例句

本文提出一种基于双辅助网络的目标情感分析模型DNTSA,包括双辅助网络和目标情感主线,其中引入方向感知的Transformer作为语义特征提取器.模型的核心思想是通过语义特征器分别学习目标提取和情感增强子任务的语义表示辅助目标情感分析主线网络学习,解决了统一方法下同时学习目标提取标签和情感分析标签存在困难的问题.语义特征提取器采用方向感知的Transformer有效学习目标词和情感词之间内部关系,方向感知有效避免了多个目标词和情感词的对齐错误.未来的工作中,本文将进一步改进双辅助网络语义表达的融合方式,有效提高目标提取和情感标签的协同训练.

猜你喜欢 示例标签目标 白描画禽鸟(九)老年教育(2021年5期)2021-05-25无惧标签 Alfa Romeo Giulia 200HP车迷(2018年11期)2018-08-30不害怕撕掉标签的人,都活出了真正的漂亮海峡姐妹(2018年3期)2018-05-0910秒记忆娃娃乐园·3-7岁综合智能(2016年2期)2016-10-24飞吧,云宝娃娃乐园·3-7岁综合智能(2016年6期)2016-09-19让衣柜摆脱“杂乱无章”的标签Coco薇(2015年11期)2015-11-09科学家的标签少儿科学周刊·少年版(2015年2期)2015-07-07高考作文“踮起脚尖”升格示例高中生·青春励志(2009年11期)2009-12-03新目标七年级(下)Unit 3练习(一)中学英语之友·上(2008年2期)2008-04-01新目标七年级(下)Unit 4练习(一)中学英语之友·上(2008年2期)2008-04-01

推荐访问:感知 融合 方向

版权声明:

1、本网站发布的作文《融合方向感知Transformer的目标情感分析》为爱作文网注册网友原创或整理,版权归原作者所有,转载请注明出处!

2、本网站作文/文章《融合方向感知Transformer的目标情感分析》仅代表作者本人的观点,与本网站立场无关,作者文责自负。

3、本网站一直无私为全国中小学生提供大量优秀作文范文,免费帮同学们审核作文,评改作文。对于不当转载或引用本网内容而引起的民事纷争、行政处理或其他损失,本网不承担责任。

热门专题