尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 在数字化、网络化、全球化的发展环境下,社交媒体将人们联结在一起,重新定义了文本创作及发布的模式,文本数量和复杂度都呈现着“指数级增长”的趋势,对海量、非结构化的文本数据进行智能化管理就显得尤为重要。为了快速、准确地理解来自不同语言文... 展开 在数字化、网络化、全球化的发展环境下,社交媒体将人们联结在一起,重新定义了文本创作及发布的模式,文本数量和复杂度都呈现着“指数级增长”的趋势,对海量、非结构化的文本数据进行智能化管理就显得尤为重要。为了快速、准确地理解来自不同语言文字中的信息,互联网从业者和研究人员使用深度学习模型自动识别文档和句子的潜在主题。挖掘文本主题是数据挖掘的基本功能之一,也是一项自然语言文本处理的关键技术,有一定的研究价值。 一方面,相比于传统的出版物,用户书写网络文本时经常会使用口语、俚语等不规范的表达,为挖掘文本的特征带来一定难度。另一方面,传统文本分类算法对训练样本要求较高,而中文语料库建设起步较晚,其数据的规模、质量、主题、开发性都与英文存在不小的差距。针对上述现象,本文基于XLM-RoBERTa设计并实现了一种适用于中文句子级文本分类的模型,取得的成果有: 1、针对数据不足问题,本文使用高效的数据迁移方法,在BLEU指标的监督下将英文语境下的训练集及文本信息特征映射到中文语境,以扩充训练样本的数量。在深度学习模型中同时输入中英文语料,利用不同语言的数据分布差异,增强训练样本的复杂性,构建文本分类任务的跨语言数据集。 2、针对数据集的特殊性,本文结合随机抽样和关键词抽取技术提出了一种预处理算法:屏蔽每组句子中的部分词语,在不影响单一语言性能的情况下进行无监督预训练。经过深入预训练,本文充分利用了多语言模型XLM-R提取词嵌入向量的能力;随后将文本特征向量输入到基于图神经网络的文本分类器中,为后续任务打下基础。 3、根据句子分类任务与其他NLP任务的关联性,本文设计了一种基于多任务学习的模型优化方法:使用命名实体识别、关键词抽取作为文本分类的辅助任务,构建并结合多个任务的学习器进行集成学习。由于BERT能处理多种NLP任务,该方法只须在通用的Transformer框架外增加一个共享参数层就可以完成,克服了传统语言模型难以迁移的缺点。同时,通过对多个任务样本的不同语义特征进行综合提取和训练,能有效提升数据使用率,进而提高模型的鲁棒性。 本文深入研究多语言文本分类模型,并在问题分类数据集上做了相关实验。预训练实验的结果表明,随机屏蔽算法在中文测试集上的F1值最高接近98%,比BERT-Large模型高出了4个百分点,且该算法在中文环境下的表现与英文差别不大,说明预处理算法保留了英文语料的文本特征,实现了跨语言数据迁移;对比实验的结果显示,MT-XLMR的预测准确率显著优于其他单任务模型,说明多任务学习方法能有效增强中文文本分类的性能。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。