尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 数据挖掘是人工智能领域中的重要组成部分,同时也是一个多领域交叉的学科,广泛的应用于数据处理方面。Pawlak于1982年提出了粗糙集理论(Rough Set,RS),其能够处理数据集中不明确的以及不完备的信息,可以从庞杂的数据中提取出蕴含的重要模式。但是... 展开 数据挖掘是人工智能领域中的重要组成部分,同时也是一个多领域交叉的学科,广泛的应用于数据处理方面。Pawlak于1982年提出了粗糙集理论(Rough Set,RS),其能够处理数据集中不明确的以及不完备的信息,可以从庞杂的数据中提取出蕴含的重要模式。但是,当数据集中存在噪音数据时,粗糙集在处理此类数据时存在过拟合而无法准确的提高数据处理能力的问题。因此为增强对噪音数据的抗干扰能力,W.Ziarko于1993年提出了变精度粗糙集(Variable Precision Rough Set,VPRS)模型,该模型通过引入了一个精度β来降低RS理论对近似边界区域的严格要求,使得集合的上、下近似拓展到任意精度水平β∈[0,0.5),VPRS是对经典RS的一种理论拓展。 聚类分析是根据对象之间的差异性来反映对象间的相似性,使得类内对象之间的差异性尽可能小,类间对象的差异性尽可能大。K-means聚类算法是一种重要的划分方法,该算法是任意选取簇数K以及聚类中心,将样本数据集分成多个类或簇。K-means聚类算法存在的不足之处是任意选取初始化聚类中心、簇数K以及数据集中存在的噪音数据对聚类结果的影响等问题。本文主要针对K-means算法中的不足之处进行改进,首先将粗糙集理论与K-means算法相结合,提出了自适应的K-means聚类算法;其次将变精度粗糙集理论与K-means聚类算法相结合,提出了基于变精度粗糙集的K-menas聚类算法。通过在合成数据集上做实验验证了本文提出的方法的有效性。本文主要的研究工作如下: 1.提出了自适应的K-means聚类算法。主要针对K-means聚类算法中任意选取聚类中心、K值以及数据集中存在噪音点数据对聚类的影响。该算法无需设置初始聚类中心以及K值,利用数据集中数据对象的密度区域连续分布这一特点进行聚类。该算法主要采用粗糙集理论中的上下近似与K-means聚类算法相结合来实现小类的合并,最终自适应的完成聚类。 2.提出了基于变精度粗糙集的K-menas聚类算法。主要针对自适应的K-means聚类算法中的噪音点数据对聚类结果的影响做出进一步的改进,该算法将变精度粗糙集理论与K-means聚类算法相结合,采用小类合并的方法,通过设置不同的半径值求出样本对象密度连续区域中小类的上下近似区域,使得更多的样本对象进入近似区域中,并采用K-means聚类算法计算聚类中心,自适应的统计出聚类个数K。 3.将自适应的K-means聚类算法与基于变精度粗糙集的K-menas聚类算法应用于合成数据集的分类。基于变精度粗糙集的K-menas聚类算法能够有效处理噪音点对聚类效果的影响,同时通过设置不同的半径r来确定相应的阈值β,进而可以得到相应的近似区域以及边界域。并通过实验验证了本文算法在合成数据集上的聚类效果。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。