尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 随着互联网的普及,随之产生的数据类型逐渐多样化且数据量也越来越大,给聚类分析算法带来了巨大挑战,聚类算法的局限性也逐渐显现出来。因此,对聚类算法中存在的缺陷进行改进,使其能够适应数据变化变得尤为重要。基于密度的聚类算法能够适用于任... 展开 随着互联网的普及,随之产生的数据类型逐渐多样化且数据量也越来越大,给聚类分析算法带来了巨大挑战,聚类算法的局限性也逐渐显现出来。因此,对聚类算法中存在的缺陷进行改进,使其能够适应数据变化变得尤为重要。基于密度的聚类算法能够适用于任意形状的数据集,同时也具有较强的抗噪声能力,日益成为聚类算法的研究重点。 密度峰聚类算法(DPC,DensityPeaksClustering)是一种基于密度的聚类算法,该算法相比于其他传统聚类算法具有无需提前知道聚类数量的优势,而且能够发现任意形状的簇。本文对DPC算法聚类过程的分析后发现,DPC算法的聚类算法效果受截断距离的影响很大,且人工确定簇心的结果受主观性的影响,而且对多密度峰的数据集,容易出现聚类分块化的问题。为了改进DPC算法并使其能够适应数据变化,本文主要做了以下工作: 1.针对DPC算法中存在的参数敏感问题、算法不连续问题以及聚类分块化问题,提出一种基于数据相似度和引力理论的密度峰聚类算法(SLDPC)。首先,基于L1范数的相似性度量方法确定数据密度,在计算密度时无需任何参数的输入,具有更好的鲁棒性。其次,设计一种基于引力理论的簇心评价方法自动确定簇心,将相似数据点之间的差异进行扩大,能够更容易的确定簇心。此外,设计一种基于边缘分布的合并策略,考虑了数据子集之间的相关性,能够有效地对分块化数据集进行合并。最后,通过仿真实验进行了算法有效性验证。 2.针对SLDPC算法中存在的计算量大和合并策略依赖密度估计问题,提出一种基于数据邻域和马尔可夫不等式的密度峰聚类算法(N-DPC)。首先,以数据相似度确定数据邻域,进而确定数据密度,通过数据邻域降低算法的计算量。其次,设计一种簇心评价方法,并通过马尔可夫不等式自动确定簇心,从而降低了确定簇心时的计算量。然后,设计一种不依赖密度估计的基于距离的合并策略对分块化数据集进行合并,达到提升算法鲁棒性的目的。最后,通过仿真实验进行算法有效性验证。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。