尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 随着大数据时代的到来,人工智能、机器学习和数据挖掘技术对现代社会的影响越来越深远。聚类分析作为人类认识世界的基本能力,受到了越来越多科研工作者的重视。由于混合属性数据的普遍存在和其统一距离度量的困难性,混合属性数据聚类的研究一直是... 展开 随着大数据时代的到来,人工智能、机器学习和数据挖掘技术对现代社会的影响越来越深远。聚类分析作为人类认识世界的基本能力,受到了越来越多科研工作者的重视。由于混合属性数据的普遍存在和其统一距离度量的困难性,混合属性数据聚类的研究一直是聚类分析研究中的热点之一。 本文对混合属性数据聚类中的相似性度量、聚簇信息表示、自适应聚类和基于密度峰值和维度概率模型的聚类新方法进行了深入研究分析,取得了如下研究成果: (1)针对聚簇信息的表示问题,创新性地提出了维度概率模型的概念。本文首先定义了面向数值属性数据的维度概率分布、维度概率摘要等相关概念和点簇相似度、簇簇相似度的计算方法,接着提出了基于该模型的DMPCAH层次聚类算法。最后通过实验对比分析发现,该算法比传统的K-Means算法和AGNES层次聚类算法在聚类精度上有了较大的提高,并可实现聚簇数目的自动确定和离群点的识别。在此研究基础上,本文进一步将维度概率模型扩展到混合属性数据的聚类分析中,定义了面向混合属性数据的维度概率模型的相关概念和相似度计算方法。基于此模型,结合最新的密度峰值聚类算法,提出了面向混合属性数据的DPKM和DPM聚类算法。实验分析表明,DPKM算法能够有效进行混合属性数据聚类,比传统的K-Prototypes算法聚类精度更高;DPM算法利用点簇相似性度量对DPC聚类的数据点进行重新分配,能够有效提高原DPC聚类算法的聚类效果。 (2)针对混合属性数据统一相似性度量的问题,本文提出了一种统一距离度量方法(简称为UDM距离),并将其用于生成混合属性数据的距离矩阵;接着提出了一种用于混合属性数据聚类的DPC M算法,通过实验分析表明,在UCI真实数据集中,DPC M算法的聚类准确度比传统的K-Prototypes算法提高了4%~13%。此外,本文还将此UDM距离度量方法与现有的Gower距离、K-Prototypes距离、OCIL改进距离、Goodall距离进行了比较研究,从实验结果来看,本文提出的UDM距离方法在所有实验数据集中表现最稳定,其时间复杂度也比较低,运行时间随着数据点数的增长率最慢。 (3)针对混合属性数据集中统一相似性度量方法不够稳定,传统算法无法自动确定聚簇数目等问题,提出了一种基于密度峰值的混合属性数据自适应融合聚类框架和一种基于该框架的ACEDP算法。算法首先将数据集的数值属性子集采用可自动确定聚簇数目的聚类算法进行聚类,其结果映射为分类属性加入到分类属性数据子集中;然后采用基于熵权值改进的Goodall距离度量方法生成新分类属性数据集的距离矩阵,最后采用基于双拐点改进的可自动确定聚簇中心的密度峰值聚类算法进行自适应融合聚类。在真实数据集上的实验表明,该方法能够有效实现混合属性聚类,提高聚类精度并自动确定聚簇数目。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。