尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 随着互联网的蓬勃发展,文本形式的信息呈现爆炸式增长。文本信息虽蕴含大量丰富信息,但具有非结构化特点。如何有效管理这些文本信息并挖掘其中有价值的信息依然是当工业和学术界发展所面临的挑战。文本分类作为自然语言处理的重要任务之一逐渐应用... 展开 随着互联网的蓬勃发展,文本形式的信息呈现爆炸式增长。文本信息虽蕴含大量丰富信息,但具有非结构化特点。如何有效管理这些文本信息并挖掘其中有价值的信息依然是当工业和学术界发展所面临的挑战。文本分类作为自然语言处理的重要任务之一逐渐应用于许多领域,文本分类技术的关键是文本的向量化和句子建模。传统的文本特征向量表示具有高维度、高稀疏性特点,更重要的是没有考虑上下文语义相关。随着深度学习技术的发展,它在图像处理、语音识别等问题领域上表现出色,而对于更多复杂的自然语言处理任务,深度学习方法也同样被证明在捕获句子或者文本更高层次表示时有优秀的表现能力。因此,结合各个深度学习模型的优势,提取包含更高层次、更多语义丰富和更有区分性的特征已成为研究热点。 本文在总结研究深度学习模型和文本分类技术的基础上,对如何基于注意力机制优化深度学习模型去解决文本分类问题进行了深入研究。本文主要的研究工作有: (1)本文研究了文本分类流程中的关键步骤和目前已存在的分类模型,经过研究分析深度神经网络在文本特征上具有良好的学习表达能力,可以将深度神经网络模型用于文本分类任务。针对循环神经网络模型的变种——双向长短记忆神经网络(BiLSTM)能够从上下文信息来考虑文本语义特征,但没有区分上下文信息对文本特征贡献度的影响问题,本文首先基于BiLSTM引入一个贡献率,设计实现了一个带有贡献率的BiLSTM模型。利用贡献率可以调整历史信息和未来信息对语义的不同影响,进一步提升文本分类效果。 (2)针对单一模型部分语义缺失导致重要信息丢失和关键特征选择问题,为了突出关键信息,减轻重要信息丢失,本文利用注意机制将卷积神经网络(CNN)和BiLSTM模型结合并优化提出一种新文本分类模型。该模型利用CNN和贡献率改进后的BiLSTM的分别获得一系列高级局部卷积特征和句子的中间向量表示,通过不同的注意力概率分布的计算融合两个特征以获得最终的文本特征表示。最后,设计了大量实验来验证模型的可行性和有效性,实验结果表明添加注意力机制和贡献率的模型不仅考虑了上下文整体、时序信息,而且利用权重保留了有效信息,解决了信息冗余和关键文本信息丢失问题,通过优化文本特征向量进一步提升了模型的分类精度和性能。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。