摘要 :
随着计算机技术的发展与数字图书馆资源建设的深入,数字图书馆中电子论文等数字资源的总量日益增多。目前,常见的基于关键词的电子论文检索服务,主要是通过用户输入需要查询的关键词,然后系统以列表的形式返回所有相关的结果。这样的查询模式,虽...
展开
随着计算机技术的发展与数字图书馆资源建设的深入,数字图书馆中电子论文等数字资源的总量日益增多。目前,常见的基于关键词的电子论文检索服务,主要是通过用户输入需要查询的关键词,然后系统以列表的形式返回所有相关的结果。这样的查询模式,虽然较好的满足了用户的查询需求,但是由于返回结果巨大,用户需要进行二次人工筛选,这并不能够给用户带来便捷快速的使用体验。实际上,用户最关心的是与特定主题相关的一定时期内最热门的论文结果,而一般的查询服务显然不能满足这一重要需求,所以有必要提出新的相应解决方案。
本文以国家“211”工程“中国高等教育文献保障系统”(China Academic libraryInformation System,简称CALlS)“十五”项目“中国高等教育数字图书馆”为背景,研究并提出了一个用于对大量电子论文数据进行热点论文挖掘的新的算法,并以此为基础,设计和实现了一个满足数字图书馆需求的热点论文挖掘原型系统。该原型系统利用电子论文的摘要文本和引用关系等特性,提出并实现了论文向量的词语权重计算模型以及对论文向量进行基于密度的聚类算法。
本文提出了一种基于统计和基于影响力结合的混合型计算模型。传统的词语权重计算模型,采用向量空间模型(VSM)表示文档。向量空间模型的基本思想是以向量V表示文本D,其中Wi表示第i个特征相的权重,一般来说,文档挖掘中都选取对应文本中的字、词或词组进行表示。
基于密度的聚类算法,其认为聚类就是数据空间中一些被相对低密度的区域隔离的具有高密度的区域。本文提出了一种基于不均匀密度的自动聚类算法(Auto-Clustering algorithm for large data with Non-Uniform Density,简称ACNUD),能够较好的处理密度分布不均匀的数据,这包括(1)多个聚类之间的密度不均匀和(2)单个聚类内部的密度不均匀。实验表明,ACNUD算法既保持了一般基于密度算法的优点,比如能够发现任意形状的簇和排除孤立点,也能够有效地处理分布不均匀的数据。
基于上述算法,本文设计并开发了一个热点论文挖掘原型系统,采用Browser-Server架构模式,实现了对多种不同论文数据源的统一加工规范化,热点论文的挖掘,挖掘结果的可视化等功能。设计与实现方面的其它细节,本文也作了全面的介绍和讨论。实验表明,该系统的挖掘结果是有效的。
收起