尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 聚类是在没有类标签等先验知识的前提下根据数据内部特征对数据集进行类别划分,旨在发现新的结构、新的性质和新的关系。随着信息技术的发展,聚类分析的应用领域越来越多。与此同时数据的复杂度也在不断增大(数据集中各子集的形状多样,既有凸数据... 展开 聚类是在没有类标签等先验知识的前提下根据数据内部特征对数据集进行类别划分,旨在发现新的结构、新的性质和新的关系。随着信息技术的发展,聚类分析的应用领域越来越多。与此同时数据的复杂度也在不断增大(数据集中各子集的形状多样,既有凸数据子集也有非凸数据子集,数据集中类的大小相差较大,以及数据分布疏密程度相差较大等情况),以至于许多现有的聚类算法聚类效果不佳,究其原因,主要是因为以下问题:1)类的数目难以确定;2)算法对参数较为敏感;3)噪音点影响聚类结果;4)任意形状、类大小不平衡以及密度分布不均衡的数据集需要考虑的影响因素较多。针对以上问题,逐次求解,设计了基于密度峰值的自动获取类数目的聚类算法,无参数的不平衡数据自适应聚类算法和基于互近邻的多中心任意分布数据聚类算法。本篇文章的主要研究成果和创新点如下: 1.针对大多数现有的聚类方法都需要提前知道类的数目,密度峰值聚类算法[1]给出了一种新的方案,由用户根据二维决策图上数据点的位置选出类中心。这种算法虽然给出了选择类中心的一些准则,但这需要用户依靠经验去判断选择类中心点,不同的用户选择,会产生不同的聚类结果,算法性能依赖于用户经验。为此,提出了一种基于密度峰值的自动确定类数目的聚类算法。首先,设计了选择初始类中心点的方案;接着,分配剩余数据点得到初始类;受尺度空间理论的启发,对初始类中心进行合并,并统计合并后类的数目,如此重复,直到合并成为一个类为止。最后,将类的数目持续不变次数最多的类数目确定为最终的类数目,对应的类即为最终的聚类结果。算法能自动获取类数目,且排除了噪音点的影响,实验显示算法对凸数据集和非凸数据集都有良好的聚类效果。 2.针对现有聚类算法在对不平衡数据集聚类过程中容易将小类处理成噪音点,或将大类中的数据错误分配给小类等的情况,设计了一种基于密度峰值的无参数不平衡数据聚类算法。对于密度峰值聚类算法需要指定距离阈值的问题,提出了自适应确定距离阈值的方法,接着针对不平衡数据集提出了新的局部密度计算方法。算法设计了能更好地区分噪音点和小类中心的三维决策图,解决了小类被处理成噪音点的问题。在此基础上,设计了一个初始子类构建方案,该方案能自动生成初始子类。其次,提出了一种子类的更新策略,可以识别和去除假的子类中心。子类思想防止了在聚类过程中将大类的数据错误分配给小类的问题。第三,设计了子类合并方案,方案可以自动合并更新后的子类,形成最终的类结果。实验显示,与同类算法相比,该算法在不平衡数据集和平衡数据集上都有好的聚类效果,并且时间成本得到了明显降低。 3.针对现有算法对任意形状及密度分布多样的数据聚类效果不佳的问题,提出了一种基于互近邻的多中心聚类算法。算法使用多个中心表示一个类,旨在有效地聚类任意分布的数据。首先设计了一种基于互近邻的中心点发现算法,该算法可以在没有任何参数的情况下自适应地找到中心点。因为中心点是根据数据点的互近邻进行查找的,与数据点之间的距离和密度无关,所以该算法适用于密度分布多样的数据集。接着,设计了一种基于中心点连接的子类构建方案,方案通过连接落在互近邻区域的多个中心点来构建子类,形成中心点的最大连接,因此算法对于非凸形状的数据集聚类是有效的。最后,根据子类之间的重叠度和子类间的距离两个指标来度量合并子类的难度,根据合并子类的难度,设计了一种自动确定类数目的算法,找到合并难度值发生最大变化的类的数目即为最终的类数目,聚类结果即为最终的结果。与现有算法相比,该算法利用互近邻自动获取类中心点,并且不需要任何参数,能有效地对任意分布的数据集进行聚类。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。