尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 聚类分析在数据挖掘的过程中扮演了重要的角色。密度峰值聚类算法是一种基于密度聚类的较新算法。该算法原理简单、快速高效,可以在无先验知识的条件下识别任意类簇,因此成为众多领域的研究热点。然而算法面对流形数据时依旧存在不足,具体表现为:... 展开 聚类分析在数据挖掘的过程中扮演了重要的角色。密度峰值聚类算法是一种基于密度聚类的较新算法。该算法原理简单、快速高效,可以在无先验知识的条件下识别任意类簇,因此成为众多领域的研究热点。然而算法面对流形数据时依旧存在不足,具体表现为:(1)两种局部密度均有不同程度的信息缺失;(2)仅以欧氏距离为依据的局部密度难以准确描述流形数据;(3)分配剩余样本时未充分考虑流形数据中样本的空间因素;(4)样本的链式就近分配的策略会连续地将错误的类簇标签在样本间传递。这些都会降低算法聚类流形数据时的质量。对此,本文提出如下改进: 1)提出了面向流形数据的加权自然近邻密度峰值聚类算法。针对原算法计算局部密度时造成样本信息缺失和分配剩余样本时仅参考样本距离因素而忽略空间位置的问题,该算法首先结合自然近邻和逆近邻的思想,设计了新的局部密度,综合分析了样本的局部信息和全局信息,解决了原算法造成的信息缺失问题;其次,结合共享近邻和逆近邻计算样本相似度,弥补了原算法空间因素的缺失,提高了聚类流形数据时的精度。实验结果表明,该算法在流形和真实数据集上均有较高的聚类质量。 2)提出了面向流形数据的共享近邻密度峰值聚类算法。流形数据的类簇中样本往往距离类簇中心较远,原算法的局部密度定义仅以欧氏距离为依据且分配样本时链式就近分配,没有考虑到样本所处的具体环境,从而降低聚类流形数据时的质量。首先,提出了一种基于共享近邻的样本相似度度量,使得同一流形类簇样本相似度尽可能高;其次,基于上述相似度定义局部密度,不忽略距类簇中心较远样本的密度贡献,能更好地区分出流形数据的类簇中心与其他样本;最后,根据样本的相似度分配剩余样本,避免了样本的连续误分配。实验结果表明,该算法在流形和真实数据集上均有较高的聚类质量,且能较好地应用到图像识别中。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。