尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 信息资源的充分开发和总量扩张,创造了一个“信息过载”的时代。信息过载产生大量的冗余数据信息,严重影响了受众对信息的有效利用。人们面临的问题不再是如何获取信息,而是如何在面对大量信息时有效地选择、集成、利用和决策。其中,大量的信息主要... 展开 信息资源的充分开发和总量扩张,创造了一个“信息过载”的时代。信息过载产生大量的冗余数据信息,严重影响了受众对信息的有效利用。人们面临的问题不再是如何获取信息,而是如何在面对大量信息时有效地选择、集成、利用和决策。其中,大量的信息主要由文本构成。对文本内容和产品进行分类,对于解决信息混乱的问题具有重要的现实意义。 本文系统地分析文本分类的应用场景,文本分类技术与自然语言处理在发展过程中所经历的三次浪潮,以及当前循环神经网络等深度学习方法在文本分类中的研究现状。重点介绍了文本的特征表示方法和一些常用的文本分类方法。在深入总结和借鉴目前的相关成果及方法的基础上,针对短文本特征提取和循环神经网络在全局表示上存在的缺陷,提出了相关的一些改进方法,并取得了有效的成果。主要的研究内容如下: 针对短文本数据特征少、提供信息有限,池化操作破坏局部空间时序的特点,该模型在卷积层中去除池化操作,采用串并行卷积结构以提取词语的多尺度的特征组合,获取局部上下文信息作为RNN的输入。选择GRU作为RNN的组成结构,利用文本的时序信息生成句子的向量表示。同时在Softmax分类器中引入附加边缘距离,引导网络学习出具有区分性的特征。分别在TREC、MR、Subj文本分类数据集进行测试,实验结果表明该模型提升了文本特征提取的质量以及文本分类的效果。相较于相同参数规模的GRU模型和CNN、G-Dropout等常见模型相比,其分类结果表现优异。 针对RNN是一种有偏模型,序列后期的输入比早期的输入更占主导地位的问题。为了优化文档建模中RNN的全局表示,将卷积双向循环网络(CBI-RNN)引入到文本分类中。一个卷积层和一个最大池化层用于从词向量中提取短语级的局部特征信息。再采用全局池化的BI-LSTM提取全局信息,选择最适合于分类的特征。根据模型中具体使用的全局池化方案,将模型命名为CBI-RNN-Max和CBI-RNN-Att。模型中还引入了特征拼接层,并将其性能与不同的模型进行了比较。分别在WebKB、Reuters21578-R8文本分类数据集进行测试。实验结果表明,该模型捕获了更多的上下文信息,在两个数据集上都达到了最优效果。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。