尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 文本问答通过理解问题的自然语言描述并依据不同形式的知识源给出问题的答案,这是自然语言处理领域中最具难点的挑战之一,一直受到学界和产业界的广泛关注和研究。尽管过去几十年的研究取得了很大的进展,文本自动问答系统在语义理解、文本生成等方... 展开 文本问答通过理解问题的自然语言描述并依据不同形式的知识源给出问题的答案,这是自然语言处理领域中最具难点的挑战之一,一直受到学界和产业界的广泛关注和研究。尽管过去几十年的研究取得了很大的进展,文本自动问答系统在语义理解、文本生成等方面仍然面临一些尚未解决的问题,比如对于复杂的自然语言问题的语义理解仍比较困难;用于无结构化问答的文本生成技术在语义一致性、信息多样性等质量属性上存在不足。另一方面,海量的知识是增强问答系统智能的关键,而知识图谱正在成为结构化知识表示的一种重要形式,能为知识提供更加完整和规范的语义化描述,因此,如何从大数据量的网络文本中有效构建和更新结构化知识图谱从而更好地支撑文本问答系统,也是问答系统所面临的一项重要挑战。针对上述问题,本文研究了不同数据支撑的文本问答系统的关键技术:基于结构化知识图谱的问答、基于无结构化文本的问答中的文本生成技术。同时本课题还关注结构化知识图谱构建,对信息抽取技术进行了研究。论文主要内容和贡献如下: 第一,在基于结构化知识图谱的自动问答方面,本文提出了基于关系判别和语义解析的两种问答方法。针对已有的简单问题的关系判别方法的语义表示问题,提出了一种融合子图信息表示的关系判别方法;针对已有的语义解析方法对复杂问题建模困难和可解释性低的问题,提出了一种基于文本空间问题分解的层次化语义解析方法,首先将复杂问题分解为子问题序列,而后抽取子问题序列中的关系信息和语义聚合类别,最后在已有信息约束下生成对应的逻辑表达式。所提出的复杂问题语义解析方法因具有显式的证据推理路径提升了结果的可解释程度。实验表明这两种方法分别提高了问答系统对于简单问题和复杂问题的理解与回答能力。 第二,在无结构化文本的问答方面,针对序列到序列的文本生成技术在文本摘要和关键词提取的不足,提出了两种改进的模型。针对序列文本摘要方法与预训练双向语言模型的不适应性,本文提出了一种“草稿-精炼”结构,以补充双向语言模型需要的语境上下文;针对关键词提取对文档编码表示和关键词关系建模的需求,提出了一种能够提升关键词序列多样性的结构。该结构包含一个使用全局信息传递机制的动态图句法编码器,以及一个无需修改训练过程的多样性推断算法。在两项任务对应数据集上的实验显示,所提出的结构在文本生成的流畅度、语义相关度、多样性等质量指标上都有显著的提升。 第三,在面向知识图谱构建和补全的信息抽取技术方面,针对已有方法所面临的噪声标签问题,本文提出了两种噪声鲁棒学习方法。针对细粒度实体分类问题,我们提出了一种基于伪标签分布估计的标签自修正模块,并使用多轮学习机制来充分发挥伪标签估计的效果;针对同义词挖掘问题,我们在已有基础模型上使用成对字向量增强实体语义表示能力、使用基于辅助学习器和交替优化的鲁棒学习框架减少噪声标签的影响。在这两个问题上所提出的噪声学习方法都与具体任务和模型无关,并只依赖很宽松的先验假设,因此具有很强的灵活性和普适性,可以直接应用于通用领域或垂直领域的信息抽取,为问答系统提供大规模知识图谱支撑。在包含真实噪声(与人造噪声相对应)的基准数据集上进行了实验与分析,结果表明了所提出的方法能够在不同比例的噪声数据上取得显著超过之前方法的效果,辅助实验及分析进一步证明了噪声学习框架的有效性。 本文的三项研究内容中,前两项关注如何利用已有的信息源和知识库对问题进行语义理解、智能推理和回答,而信息抽取技术能够用来从无结构化文本中抽取事实信息并建立或完善知识图谱等知识库。本文针对这几项研究内容所进行的实验在若干大规模开放域的任务标准数据集上完成,与之前效果最佳的若干方法进行对比,验证了所提出的方法在不同数据分布下的有效性。本课题所涉及的自动问答关键技术能够应用于搜索引擎、语音助手、客服机器人等场景,具有较强的实用性。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。