尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 随着人工智能技术的不断发展,通过自然语言处理技术实现多样化新闻评论生成已经成为可能。现有的新闻评论生成系统生成的评论往往缺乏感情色彩,不能够真正反映读者对于新闻事件的情感态度,有时还会生成一些信息熵比较低的评论。针对目前存在的一些... 展开 随着人工智能技术的不断发展,通过自然语言处理技术实现多样化新闻评论生成已经成为可能。现有的新闻评论生成系统生成的评论往往缺乏感情色彩,不能够真正反映读者对于新闻事件的情感态度,有时还会生成一些信息熵比较低的评论。针对目前存在的一些问题,本文在现有的研究工作基础上做了进一步的探索优化,旨在构建一个基于神经网络的新闻评论生成系统,且其具备情感可控和多样化生成的能力。 本文分别在预训练和非预训练环境下进行了实验,并对实验结果进行了对比分析。本文的研究内容主要包括以下三个部分: 首先,通过爬取新浪新闻网站上的新闻数据,构建了一个新闻评论数据集。通过使用规则及正则表达式的方式,对爬取的数据进行过滤及预处理,筛选出质量较高的新闻数据。此外,对数据集中各部分信息的数据分布进行了统计,方便后续模型参数设定。为了实现情感可控的评论生成,需要对数据集中的新闻评论做情感标注工作。鉴于人工标注的成本太高,本文分别使用百度开源的情感分析模型和在公开评论数据集上微调的 BERT 模型对评论数据进行粗粒度和细粒度的情感标注。最后,将数据集分主题按比例划分为训练集、验证集、测试集,以实现数据集划分工作。 其次,本文探究了基于序列到序列的方式在此数据集上的表现。标准的序列到序列模型不具备情感可控生成的能力,为了实现可控生成,在解码的每个时间步将指定情感对应的表征与当前时间步输入单词的词向量进行融合,作为模型输入,从而使模型具备情感可控生成的能力。 最后,本文提出了基于条件变分自编码器的新闻评论生成模型。相比于序列到序列的方式将新闻信息编码为固定向量,条件变分自编码器将新闻信息编码到隐空间中的一个多元高斯分布,每次采样均可得到不同的向量表征并参与解码的过程,从而实现多样化的新闻评论生成。此外,由于新闻正文长度过长,采用层次编码器的方式对正文部分进行编码。同时,由于隐空间中还引入了情感和主题信息,进一步提升了生成评论的质量和情感可控性。最后,针对常见的隐变量消失问题,在优化的过程中,使用了 KL 退火算法和词袋损失的方式进行缓解,保证模型具备多样化的生成能力。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。