尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 表示学习方法可以为自然语言处理任务学习低维的平滑特征表示,从而缓解数据稀疏问题对于基于有监督学习的自然语言处理方法的影响。近年来,服务于如短语和句法树等自然语言结构的表示学习方法得到了广泛的关注。然而已有方法往往局限于对于特定类型... 展开 表示学习方法可以为自然语言处理任务学习低维的平滑特征表示,从而缓解数据稀疏问题对于基于有监督学习的自然语言处理方法的影响。近年来,服务于如短语和句法树等自然语言结构的表示学习方法得到了广泛的关注。然而已有方法往往局限于对于特定类型结构的表示,而且只能使用受限的语言学标注信息从而描述能力有限。受到以上现状的启发,本文考虑通过结合语言学知识和无监督的表示学习方法,从而更好地建立自然语言的结构表示。为了实现这一目标,本文提出了一种新的结构表示模型,并为该模型的训练过程提出了新的方法。同时本文对于结构表示在自然语言处理中的应用进行了新的探索。 本文研究的核心在于表示自然语言结构各关键信息之间的合取。第一,为了说明合取思想的重要性,本文首先从最简单的n元词组表示的构造方法及应用开始,基于n元词组本身是其各组成词之间的合取这一事实,展示了词表示的合取对于构建n元词组表示的重要性。传统的基于词嵌入的n元词组表示方法通过对词嵌入向量进行拼接来表示n元词组,然而正如本文的的分析所示,这样的方法不能反映n元词组各组成词之间的合取信息。本文则通过对词嵌入进行聚类,并对离散的聚类进行合取对n元词组进行表示。这一方法相比词嵌入拼接得到了更好的实验结果,从而证明了合取信息的重要性。本文进一步在训练样本的去噪问题中展示了上述n元词组表示的有效性。 第二,本文提出了一个通用的结构表示模型。对于任意的输入结构,只要我们可以将其表示为以词为节点的图,该模型便可为其构造结构表示。本文的这一模型首先将输入结构分解为子结构,每个子结构包含了一些词节点(表示为词嵌入),和一些带有结构信息属性的边(表示为语言学特征)。本文的模型通过对上述两种信息对应的向量求外积来获得它们的合取信息,从而得到每个子结构的表示。我们对所有子结构表示求和,得到原始输入结构的表示。在上述结构表示的基础上,本文的模型通过一个参数张量获得目标任务的输出。这一模型被称为基于丰富特征的结构表示合成模型(Feature-rich Compositional Embedding Model,FCM)。本文主要关注该模型在句子级别结构的表示任务上的应用,并证明该模型在多个关系抽取任务上都获得了业界领先的结果。 第三,上面的FCM模型当子结构包含词节点较多,或者当张量的某个输入视角维度较高时,会因为模型的参数过多而易于过拟合。本文通过张量低秩近似的方法,对FCM进行了近似,得到一种称为低秩FCM的新模型(Low-RankFCM,LRFCM)。这一近似的结果是每一个视角上的输入都被映射到更低维的向量,减小了模型的参数空间。同时,通过张量的CP模式近似,我们将原本耗时的张量乘法近似为上述低维向量之间的点积。上述改进有效地减小了FCM的参数空间并提升了模型的运行速度,并在多个任务上取得了实验结果的提升。 第四,本文提出了一种基于有标记数据和无标记数据的联合训练方法,用于对上述模型进行更充分的训练。相比传统的流水线式半监督训练方法,本文提出的方法有利于更充分地训练未被有标记数据覆盖的词的词嵌入。为了利用无标记数据,本文提出了一种基于语言模型思想的方法,使用一个结构的表示预测该结构的上下文词。 最后,本文以短语嵌入的学习为例,展示了本文所提出的通用表示模型(及其低秩近似)以及联合训练方法的重要作用。上述方法在多个短语相似度任务上都取得了较大的提升。 本文提出的方法在包括关系抽取、短语相似度、序列标注和跨语言映射等多个任务上都取得了业界领先的结果。同时本文所提出的基于合取的表示建模思想也为未来的表示学习的研究提供了新的方法和视角。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。