尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 伴随着Web2.0技术的快速发展,许多工具如博客、微博、微信等成为人们日常生活中信息发布与共享的网络平台,每个人可以在网络上分享对某事件的观点、看法,其中也包含了大量的个人意见、主观情感和情绪反馈。基于大规模网络文本信息的情感分析是舆情... 展开 伴随着Web2.0技术的快速发展,许多工具如博客、微博、微信等成为人们日常生活中信息发布与共享的网络平台,每个人可以在网络上分享对某事件的观点、看法,其中也包含了大量的个人意见、主观情感和情绪反馈。基于大规模网络文本信息的情感分析是舆情分析领域的一个重要部分,探究文本信息中所包含群众情绪的动态趋势对于社会学研究有着重要意义。 本文的研究主要是阅读者角度的情感分析问题,即通过分析新闻文本中的词语或包含的主题信息,来预测阅读者在读完这篇新闻后可能引发的情绪。在以往的研究中,文本情感分析主要是从作者角度出发探究其中表达的主观情感,对阅读者情绪反馈的相关研究相对较少;另一方面,相关领域通常将文本情感分析问题视为单标签问题进行处理,即默认一篇文档只能引发阅读者的一种情绪,显然这与实际问题不符,一篇新闻对于社会大众引起的情绪可能不尽相同,统计数据显示投票较多的情感类别一般有多个;此外,相关工作大部分是基于词袋模型进行的研究,根据社会心理学研究的观点,阅读者情绪不仅会与新闻文本中直观的词语有关联,还与新闻报道中隐含的事件主题有着间接关系。针对上述问题,本文基于社会大众标注的多标签语料进行了系统化的文本情感分析,主要的工作有以下几个方面: (1)多标签新闻语料的构建。针对研究中的着重点“多标签”、“阅读者”,将情感分析任务当做多标签分类问题,爬取了社会化标注的新浪社会新闻文本及其读者投票数据,并对投票数据进行处理。 (2)分别采用词袋模型和主题模型对多标签新闻语料数据进行实验,并分析了实验结果。从不同角度对数据进行处理,针对二分类、多分类以及多标签分类问题对数据集进行建模,然后训练好模型预测阅读者情感。实验数据表明,在分类性能上主题模型相对优于词袋模型,并且,采用主题模型时文本的特征向量维度远远小于词袋模型,模型代价消耗较小,有着重要的现实意义。 (3)借鉴混合标签的M-LDA方法,将情绪标签视为已知标签并将该方法应用到文本情绪分类中。传统的LDA是一个无监督的主题模型,应用在标签分类问题中往往需要结合分类器来进行。为了处理本文的多标签新闻语料,充分利用数据集的类别标签,借鉴的M-LDA是一种混合了已知类别的有监督主题模型。M-LDA考虑在模型的主题层将已知类别与隐含主题进行混合,在模型的建模过程中引入已知类别信息,最后以权重的大小排序输出标签。实验表明,M-LDA模型在单标签多分类问题以及多标签分类问题上表现出良好的性能,特别是对于多标签的读者情绪分类,相较于传统的方法在准确率上有较大的提升。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。