首页作文素材好词好句历史典故写作技巧考场素材单元作文英语作文小升初作文名人故事时事论据 名言警句范文大全精美散文
小学作文
初中作文
高中作文
作文体裁

中文口语语言理解中依赖引导的字特征槽填充模型

时间:2023-02-12 18:25:12 来源:爱作文网  爱作文网手机站

朱展标, 黄沛杰,2, 张业兴, 刘树东, 张华林, 黄均曜, 林丕源,2

(1. 华南农业大学 数学与信息学院,广东 广州 510642;
2. 广州市智慧农业重点实验室,广东 广州 510642)

口语语言理解(Spoken Language Understanding,SLU)应用系统在日常生活中变得越来越重要。许多便携式设备提供的个人智能助理(Personal Intelligent Assistant, PIA),例如,Amazon Alexa、Microsoft Cortana以及Apple Siri,它们能够理解用户的指令,帮助用户执行各种任务或与用户进行闲谈交流。这些智能助手的核心部分是口语语言理解,旨在从用户的话语中形成语义框架,包括意图检测(Intent Detection)和槽填充(Slot Filling)两个部分[1],具体地说,其能区分用户话语中的意图信息,捕捉用户话语中的语义组成成分[2]。如图1所示,给定一个查询地图的话语,“你知道中国科技大学在哪里吗”, 话语中每个字与槽标签一一对应,并且包含整个话语的意图。

图1 话语示例

在之前的研究中,意图识别任务和槽填充任务是分开训练的。意图识别任务通常被看作一个话语语义分类问题,常见的分类方法包括支持向量机(Support Vector Machine,SVM)和循环神经网络(Recurrent Neural Network,RNN)。而槽信息填充可以被视为序列标注任务,常见解决序列标注问题的方法有条件随机场(Conditional Random Fields,CRF)、最大熵马尔可夫模型(Maximum Entropy Markov Model,MEMM)和RNN模型[3]。考虑到槽填充与意图识别之间的强交互关系,越来越多的研究将意图识别与槽填充任务结合起来。一些研究者采用基于多任务框架的联合意图识别和槽填充模型[3-7]。一些研究者在使用联合学习方法时只考虑表面层的共享参数,不能直观地查看两者之间的交互关系,缺少解释性[2, 8-9]。一些模型提出将意图标签通过门控机制显性地传入到槽填充模型,这种显性联合方式能够提高模型槽标签预测的表现,并且具有一定的解释性[5, 7]。也有研究者将槽标签和意图标签互相迭代、交互传入到模型中,以此逐步提高两个任务模型表现[6]。此外,还有一些研究者提出了一种基于动态路由算法的胶囊网络,用于联合意图识别和槽信息填充任务[10]。

当给予模型足够训练数据时,上述模型可以取得很好的效果,但当出现频率低的槽指称项(Rare seen slot mentions,或称为Few-shot slot mentions)或未见过的槽指称项(Unseen slot mentions,或称为Zero-shot slot mentions)的时候,这些模型的槽标签预测准确性会受到损失。特别是在预测长度较长的槽标签时,或者在低资源的场景中,如“中国科技大学”这样的长度较长且未在训练集中出现过的槽指称项往往不能正确识别出对应的槽标签,因而使模型的性能受到影响。

此外,这些上下文感知模型只应用上下文语义来识别槽信息,往往没有利用外部知识,如句子中的语法知识。许多早期的研究表明,序列标记任务如命名实体识别 (Name Entity Recognition,NER) 任务,模型能从使用依赖树结构中受益[11-13]。一方面,依赖树结构可以捕捉单词之间的长距离依赖关系;
另外一方面,依赖结构可以捕获单词和实体之间的语义级交互,它可以潜在地推断槽标签或实体的边界,特别是长度较长的槽位。这些依赖结构信息能够帮助模型正确识别槽边界[12]。

中文的口语语言理解相较于英文口语语言理解更具挑战,因为中文话语由一串字序列组成,是未进行预先分词的。已有研究表明,基于中文字特征的序列标注模型可以取得比完全基于词特征的序列标注模型更好的性能[14]。但是汉语的依赖结构是基于词级别的,无法直接集成到字级特征模型中,如汉语的BERT(Bidirectional Encoder Representations from Transformers)模型[15]中。针对这一问题,本文提出了一种依赖引导的基于字特征的槽填充模型(DCSF),该模型能够解决字级口语语言模型与词级依赖树结构之间的冲突。DCSF模型提供了一个简洁的方式,建模输入层的两种不同类型关系,其中包含依赖关系(图2中的实线弧)和词内部关系(图2中的虚线弧)。

图2 话语中的依赖关系和词汇关系

考虑到不同类型的关系,本文模型一方面能够捕获基于依赖的远距离交互以及词语和实体之间的语义级交互;
另一方面由于建立词内部联系而保留了词级信息,可以增强模型输入字表征的表达能力和区分槽边界的能力。

本文主要贡献如下:

(1) 提出了一种基于依赖引导的字特征槽填充模型,该模型解决了字模型和词级依赖树结构之间的冲突,有效实现了在字级特征的中文口语话语槽填充模型中融入词级的依赖关系。

(2) 在公开基准数据集上的实验结果表明,本文的模型在槽位提取F1和话语准确率两方面均取得了显著优于目前研究进展口语理解模型的性能。消融实验、0-shot槽位的提取和低资源实验的定量分析进一步证明了本文提出的模型的良好效果。

本文的研究是将依赖结构引入到采用字特征的中文口语语言理解的槽填充模型中,下面我们简要介绍一下口语语言理解和基于依赖结构的序列标注两方面的相关工作。

1.1 口语语言理解

口语理解的目的是抽取用户话语的语义框架,通常涉及用户话语的意图识别和槽填充两个任务[1, 16-17]。其中意图识别被看作是分类任务,常用方法包括SVM[18]、Adaboost[19]等。而槽填充任务被看作是序列标注任务,传统的方法是使用具有较强序列标注能力的CRF结构[20]。近年来,由于深度学习具有强大的学习能力,越来越多的模型使用深度学习框架去提升意图识别效果,例如卷积神经网络(Convolutional Neural Network,CNN)[21]、RNN[22]等方法。在槽信息填充方面,Yao等人[3]提出基于LSTM模型的槽填充方法,缓解了循环神经网络记忆遗忘问题。研究者还进一步使用CRF作为句子级的优化标准,使得模型能够处理输出序列之间的依赖关系[23]。

分开处理意图识别和槽填充任务,模型不能够充分利用两者之间的交互的信息。因此,Zhang和Wang[24]提出了使用循环神经网络联合意图识别和槽填充模型来解决上述问题。而Liu和Lane[2]则将注意力机制引入到了SLU的联合学习模型中。随后,文献[4-7]尝试在SLU的联合学习模型中显式建立意图识别和槽填充的联系。最近,研究者们将上下文相关的单词表征(如BERT)应用到SLU任务中[9],进一步提高了SLU的性能。尽管SLU任务已经取得了较大的进展,但在少样本槽位提取方面仍存在一些不足。已有的研究表明,序列标记任务可以通过引入依赖树结构辅助推断标签的存在,提高序列标记的准确度[12]。因此,本文在研究SLU模型的基础上,研究依赖引导的槽填充模型。

1.2 基于依赖结构的序列标注

依赖树结构可以捕捉单词之间的长距离依赖关系以及词语和实体之间的语义级联系。研究者们发现引入依赖结构能够提升模型的序列标注能力。Ling和Weld[25]引入实体在依赖树结构中的依赖词语作为特征输入,提升了模型的实体识别能力。Liu等人[26]使用Skip-chain CRF链接具有不同关联关系的词语来提升模型表现。Jie等人[12]将依赖树引导模型,应用于NER任务。然而,由于现有的中文依赖树结构是基于词级的,而研究进展的中文序列标注模型采用的是字特征的模型[14],这使得依赖结构难以直接应用到中文槽填充任务。为此,本文对中文话语中字之间不同类型的关系进行建模,解决基于中文字特征的模型与基于词的依赖树结构在应用结合时的矛盾。

本节介绍用于本文提出的用于SLU任务的依赖引导的基于字特征槽填充 (DCSF) 模型。图3显示了该模型示例话语“查询天龙集团的股票”及其依赖关系结构。本文的重点是改进SLU任务中的槽信息填充任务,因此只展示基于BERT的SLU联合学习模型中槽填充的部分。模型的结构包括字特征嵌入层、关系嵌入层、双向LSTM层和输出预测层。

2.1 输入表征

为了捕获远距离交互,我们在模型中应用了依赖信息。在依赖结构中,一个话语中的每个词都只有一个父节点(词根除外),将词的依赖结构之间的关系表示为依赖关系。将相邻字之间的关系表示为词内部关系,这样的依赖结构可以提供内部联系和词边界信息。关于这依赖关系和词内部关系的详细信息见图3的子图。

图3 DCSF模型的架构

2.1.1 依赖关系

由于汉语依赖树分析是基于词的,如果采用完全词级别模型,会出现边界错误,进而将错误传播到后续槽信息填充任务中。为了使该过程与字模型兼容并且缓解分词错误带来的不良影响,在基于字特征的模型中,我们只选择词的第一个字来表示依赖关系。对于依赖关系,(xp,xt,r)是以xp为父节点,xt为子节点,rdep(rdep∈{ROOT,VO,…,SP})为依赖关系。如图3中的示例说明,父节点词xp“天龙集团”和子节点词xt“股票”存在依赖关系,为了与字模型兼容并且缓解分词错误带来的不良影响,父节点词xp“天龙集团”和子节点词xt“股票”的依赖关系将转换成单个字ct“天”和cp“股”的关系。受Jie等人工作[12]的启发,我们将子节点的字特征表示与其父节点字表示及其对应依赖关系表示拼接在一起。

ct=First(xt)

(1)

et=Embedc(ct)

(2)

(3)

(4)

其中,et和ep分别是词xt和词xp中第一个字的字特征向量,vdep是依赖关系rdep的关系标签的表示向量。Embedc和Embedr分别是字嵌入层和关系标签嵌入层。细节可在图3中的依赖关系子图中看到。

2.1.2 词内部关系

目前常用的汉语序列标注方法大多将单词信息整合到基于字特征的模型中, 但大多只考虑了静态拼接词嵌入,缺乏灵活性[14,27]。此外,边界信息在序列标注任务,特别是槽填充任务中也有应用价值,仅仅加入静态的词嵌入往往丢失了这部分边界信息。为了利用动态词嵌入信息,我们将一个词中的连续字用一个特殊的弧连接起来,包括M(单词中间)和E(单词结尾),并将该字特征向量与其前向字特征向量和对应关系嵌入向量拼接在一起。

其中,et和ef分别是词组中字ct及其相邻前向字cf的字表示。vword是词内部关系rword(rword∈{M,E})中的嵌入表示向量。例如,词“股票”,包含两个字,分别是“股”和“票”。“票”的前一个字是“股”,为了表示这种词内部关系,我们将“股”的字特征向量和“票”的字特征向量和词内部关系嵌入向量拼接在一起。细节可在图3中的词内部关系子图中看到。

2.2 模型结构

在图3中的话语例子“查询天龙集团的股票”展示了输入序列之间的关系,可以看出依赖关系和单词关系可以提供不同的信息。例如,“查询”和“股票”是分开的话语,但是在语法树却是邻居。通过引入远距离依赖关系,模型可以捕获远距离依赖信息。此外,模型还考虑了词内部关系,能够捕获词的上下文信息和词的边界信息。将每个位置的隐藏状态输入到Bi-LSTM层后,会传播到下一个预测层,用于标记槽位标签。图3所示的架构可以有效地嵌入远距离的父依赖字,以连接父节点信息和依赖关系,因而该模型能够间接捕获长距离交互作用、动态词信息和词边界信息。知识增强的序列向量为{u(1),u(2),…,u(T)},u∈{udep,uword},其中T是句子长度。将知识增强后的序列向量输入到Bi-LSTM[3, 28]中,其中Bi-LSTM模型内部结构如下定义:

其中,t代表第t个时间步输入,最终将Bi-LSTM的隐藏层向量ht输入到槽信息填充的预测层中,如式(10) 、式(11)所示。

=intent+slot

(16)

3.1 数据集

我们在SMP-ECDT 2019 和CrossWOZ[29]的公共基准文本语料上对本文模型进行训练和评估。SMP-ECDT 2019 (Social Media Processing - the Evaluation of Chinese Human-Computer Dialogue Technology)是来自ASR系统的转录。SMP数据集有24种不同的意图类型和124种不同的槽位标签。CrossWOZ是大规模的中文跨域Wizard-of-Oz任务导向数据集,分别包含5个领域和72种不同类型的槽位。SMP和CrossWOZ数据集的统计结果见表1。在SMP和CrossWOZ中测试数据集0-shot的槽指称项比例分别为70.31%和26.26%。因为SMP数据集的训练数据量较小,并且在测试集中存在大量的0-shot槽,所以SMP数据集更具有挑战性。

3.2 超参数

在实验中,我们使用HaNLP3 工具来捕获依赖结构,其性能优于Stanford CoreNLP toolkit4[30]。为了避免过拟合,Dropout[31]被设置为0.1到0.5进行验证,实验中使用了Adam优化器[32],学习速率为1e-5,批大小(Batch size)设置为32,L2正则化参数为1e-8,关系嵌入维度为50。此外,我们使用交叉熵作为意图识别和槽填充任务的损失函数。在没有使用预训练字向量模型中,均采用随机初始化字向量的方式。以下结果中的数据均为10次独立实验的平均值。

3.3 对比的方法

我们将DCSF模型与以下方法进行了比较,包括:

●AttentionBiRNN: Liu和Lane[2]利用注意力机制,让模型网络学习信息槽和意图之间的关系。

●Self-AttentiveModel: Li等人[4]提出了一种新的具有意图增强门控机制的自注意力模型,以利用信息槽与意图之间的语义相关性。

●Slot-GatedAtten: Goo等人[5]提出了信息槽门控联合模型,以更好地探究槽填充与意图检测的相关性。

●SF-IDNetwork: E等人[6]介绍了一种SF-ID网络,为槽填充和意图检测建立起直接性的连接,以帮助它们相互促进与提升。

●Stack-propagation: Qin等人[7]采用Stack-propagation框架,提出了一个结合单词级别意图识别的联合学习模型。

●JointBERT: Chen等人[9]应用BERT模型进行联合槽填充和意图检测。

以上方法中,DCSF与Attention BiRNN、Self-Attentive Model、Slot-Gated Atten、SF-ID Network、Stack-propagation均是没有采用预训练字向量的模型。DCSF(BERT)和Joint BERT采用了预训练模型BERT。

3.4 主实验

与已有的工作[5-6, 9]一样,我们在槽填充中使用F1值作为评价指标,意图识别中使用正确率A作为评价指标,句子级正确率使用整句正确率来综合评估口语理解的性能。表2展示了我们提出的DCSF模型的实验结果,并在SMP-ECDT数据集和CrossWOZ数据集上进行了比较与分析。由于本文的重点是改进口语语言理解中的信息槽填充,因此我们主要观察不同模型在槽填充F1值和句子整句正确率上的表现。

表2 我们的模型和对比方法在测试集上的性能对比

从表2可以看出,在没有采用预训练字向量下,我们提出的DCSF在两个公共基准语料库上的所有指标显著优于其他所有模型。在使用预训练模型的条件下,与Joint BERT模型相比,DCSF(BERT)模型在槽位提取(F1)和整句正确率(A)得分上有较大的提升,在意图(Acc)得分上略有提高。这些结果证明了远距离依赖信息和词边界信息的有效性,而且这种远距离依赖信息和词边界信息不仅适用于没有采用预训练字向量的模型,也适用于基于预训练BERT的模型。

3.5 进一步研究

通过比较以上结果可以看出DCSF模型取得了良好的性能,为了进一步探究模型性能提升的原因,首先进行了消融实验,以分析本文模型建模的不同类型的关系对模型整体性能带来的影响。然后,给出了不同模型的0-shot槽位提取正确率的对比分析。

3.5.1 消融实验

为了研究不同类型的关系在DCSF模型中的贡献,我们对DCSF(BERT)进行了消融实验,结果如表3所示。

结果表明,我们的模型建模的不同关系对于模型的整体性能都是有价值的。详细分析如下:

●消去外部关系: 即从模型中删除外部关系。从结果中我们可以看到,在SMP数据集中槽位提取F1分数下降了0.49%,整体句子正确率分数下降了0.34%,在CrossWOZ数据集中槽位提取F1分数下降了0.15%,整体句子正确率分数下降了0.19%。这表明,在话语中对词语之间依赖关系的建模,有助于提高槽填充的性能,并提高句子准确率。

表3 DCSF(BERT)消融实验结果

●消去词内部关系: 即从模型中删除了内部关系X和E。结果显示,槽位提取F1分数明显下降,这表明捕捉内部关系是有效且对槽填充的提升效果明显。此外,我们用词向量代替内部关系[14,35],以代表对整个词语的信息建模。我们可以看到,“+词向量”版本优于“消去词内部关系”版本而低于我们的完整模型。这进一步证明了词语信息对模型性能提升的有效性,以及内部关系机制对词语信息的捕捉效果。

●消去边界E关系: 即在我们的内部关系中只删除E关系的模型和使用词向量代替E关系的模型。从结果中可以看到,所有指标的分数都下降了。这表明,内部关系机制中的关系可以更好地模拟词语的边界信息。

3.5.2 0-shot 实验

由于存在训练集未出现的槽指称项(0-shot slot mentions),基线模型可能无法预测这些0-shot槽指称项,给模型表现带来了巨大的挑战。尤其在SMP-ECDT数据集中只包含1 656条训练话语样本,由于训练样本较小,问题更加突出测试集包含的70.31%的槽指称项未在训练集样本出现过,也即是0-shot槽指称项,因此基线模型的性能受到严重损失。0-shot槽位提取和总体槽位提取召回率结果如表4所示。

实验结果表明,通过整合依赖关系和词内部关系,我们提出的DCSF模型在未使用预训练字向量条件下,0-shot槽位提取相较于对比模型取得了显著的性能提升,由于SMP存在0-shot槽指称项问题更加突出,因而DCSF模型在SMP上提高的更加明显。在基于BERT的方法模型中,DCSF在0-shot槽上也实现了较大的性能改进,达到了近2.39%,而在CrossWOZ上也提高了2.13%。此外,在测试集中,基线模型0-shot上的表现比整体的低,这表明话语中0-shot槽确实给槽填充带来挑战。实验结果表明,将依赖关系和词汇关系相结合,可以提高模型对槽指称项的识别能力,特别是在含有较多比例0-shot样本的语料中提升更加明显。

表4 DCSF模型和对比模型在0-shot槽位提取召回率 单位:
(%)

3.5.3 低资源实验

为了模拟低资源场景,我们对SMP-ECDT和CrossWOZ的原始训练集进行了下采样,随机抽取了原始训练集数据的10%、25%、50%以及75%数据量,验证集和测试集数据不进行修改,和主实验保持一致。图4显示了在使用和不使用我们机制情况下,使用不同大小的训练数据,基于预训练BERT的模型在SMP-ECDT和CrossWOZ两个公开数据集上的相对改进。实验结果表明,将依赖关系和词内部关系相结合引入模型中,确实有利于字特征模型的性能的进一步提升。特别在低资源场景下,由于仅给定少量的话语训练数据,传统的联合模型在低资源场景下不能充分学习到上下文语义,因而显式的依赖关系是必要的,因为它们可以提供语法信息和捕获长距离信息。此外,由于实体边界通常与某些词边界重合,词内部关系可以帮助识别罕见和0-shot的槽指称项,这些词内部关系提供了丰富的边界信息。在仅有10%的训练语料的实验设定中,在SMP-ECDT数据集和CrossWOZ数据集,本文的DCSF(BERT)比Joint BERT的槽位提取F1值的提升分别达到7.07%和4.58%。

图4 在不同比例训练集下DCSF(BERT) 相比Joint BERT的槽位提取F1值的相对提升

本文将依赖树结构应用于口语语言理解模型中的基于字特征的联合意图识别和槽信息填充模型中,提出了一种依赖引导的基于字特征槽填充(DCSF)模型,解决了中文字特征模型和词级依赖树结构应用结合之间的矛盾。DCSF模型以研究进展的基于BERT的联合学习模型为基础,提出了一种将词级别依赖信息融合到字级模型中的方法,通过建模话语中存在的依赖关系和词内部的连接关系,能够让模型捕捉到话语中长距离的依赖关系以及词的边界信息。在两个公共基准语料库SMP-ECDT和CrossWOZ上的实验结果表明,我们的模型在槽位F1和整句正确率得分上显著优于比较模型。消融实验证明了不同类型的关系对模型的整体性能都有贡献。对比不同模型对0-shot槽指称项和低资源情景的影响,进一步验证了所提模型的有效性。

猜你喜欢 意图向量话语 原始意图、对抗主义和非解释主义法律方法(2022年2期)2022-10-20基于高速公路的驾驶员换道意图识别汽车实用技术(2022年14期)2022-07-30画与理文萃报·周二版(2022年26期)2022-06-30向量的分解新高考·高一数学(2022年3期)2022-04-28自然教育《小蚂蚁的生日会》教案学校教育研究(2020年5期)2020-04-10《漫漫圣诞归家路》中的叙述者与叙述话语英美文学研究论丛(2019年1期)2019-11-25雷人话语美文(2018年3期)2018-03-01雷人话语美文(2017年15期)2017-09-03向量垂直在解析几何中的应用高中生学习·高三版(2016年9期)2016-05-14向量五种“变身” 玩转圆锥曲线新高考·高二数学(2015年11期)2015-12-23

推荐访问:中文 填充 口语

版权声明:

1、本网站发布的作文《中文口语语言理解中依赖引导的字特征槽填充模型》为爱作文网注册网友原创或整理,版权归原作者所有,转载请注明出处!

2、本网站作文/文章《中文口语语言理解中依赖引导的字特征槽填充模型》仅代表作者本人的观点,与本网站立场无关,作者文责自负。

3、本网站一直无私为全国中小学生提供大量优秀作文范文,免费帮同学们审核作文,评改作文。对于不当转载或引用本网内容而引起的民事纷争、行政处理或其他损失,本网不承担责任。

热门专题