摘要:
随着电子商务的迅速发展,互联网上出现了各式各样的商品评论信息。为了实现海量商品评论信息的自动化智能化分析,商品评论分析技术应运而生。由于商品的属性不仅影响到评论文本的分类,更通过与情感词的搭配关系影响到整个句子的情感倾向分析,因此...
展开
随着电子商务的迅速发展,互联网上出现了各式各样的商品评论信息。为了实现海量商品评论信息的自动化智能化分析,商品评论分析技术应运而生。由于商品的属性不仅影响到评论文本的分类,更通过与情感词的搭配关系影响到整个句子的情感倾向分析,因此对商品属性的分析是商品评论分析中一个至关重要的问题。商品的属性主要分为显式属性和隐式属性,其中显式属性在句子中直接以属性词的形式出现,是本文所要研究的对象。 本文从属性词的同义关系出发,采用无监督和半监督的机器学习方法,深入研究了商品属性词的聚类和扩展。本文的研究成果和创新点如下: 第一,提出了基于词向量的相似性传播聚类算法(AffinityPropagation Clustering algorithm based on Word Representation,APCWR)。词聚类的关键问题是词的特征表示、距离或相似度的计算,以及聚类算法的选取。APCWR算法巧妙地使用了词向量来建立词的表示模型,并使用word2vec工具来训练词向量。把文本聚类中的相似性传播算法迁移到词的聚类,设计了预设参数来调节类簇数目,设计了阻尼系数来实现数据平滑。实验表明,APCWR比基于词典的聚类和K-means聚类有更好的聚类效果和算法性能。 第二,提出了基于Bootstrapping的属性词扩展算法(AttributeWords Expansion algorithm based on Bootstrapping,AWE-Bootstrapping)。本文首先从语义词典、信息检索和信息抽取等角度分析了目前常用的同义词扩展技术。然后基于半监督的学习思想,设计了改进的Bootstrapping算法。AWE-Bootstrapping算法只需要使用少量的种子词,就可以达到比基于规则的方法更好的扩展效果。 第三,设计并实现了基于产品属性的情感摘要系统(SentimentSummarization on Product Aspects,SSPA)的数据设计和建设,并把数据处理的思想和查询扩展的思想应用到了实际的项目当中。互联网上的商品评论数据需要经过数据采集、数据预处理、属性词抽取和数据标注四个处理过程,才能用于属性词的聚类和扩展,其中数据标注是为了测试聚类的效果。经过扩展的属性词,需要经过分类和筛选等再加工,才能生成我们最终需要的属性词库。本文作者把数据处理的思想应用到了“COAE2014情感关键句评测任务和评测数据设计”当中,把相似度计算和查询扩展的思想应用到了KBA评测的CCR任务当中,都收到了很好的效果。 第四,分析了同义属性词聚类和扩展的应用。首先从文本分类和情感词-属性词搭配评分这两个角度讨论了属性词在产品评论分析中的应用;然后通过介绍常用语义词典的结构阐述了同义关系在语义词典中的重要作用,说明了同义属性词聚类和扩展在“统计词典”构建中的重要意义。
收起