尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 近些年,伴随着无线通讯与网络技术的日益发展,尤其是物联网的广泛应用与“互联网+”的逐渐普及,数据量与日俱增,及时有效地挖掘实时到来的海量数据背后潜在有价值的知识显得十分重要,数据挖掘由此而生。然而在实际应用系统中,由于存在环境干扰、数... 展开 近些年,伴随着无线通讯与网络技术的日益发展,尤其是物联网的广泛应用与“互联网+”的逐渐普及,数据量与日俱增,及时有效地挖掘实时到来的海量数据背后潜在有价值的知识显得十分重要,数据挖掘由此而生。然而在实际应用系统中,由于存在环境干扰、数据缺失、测量误差或人为因素等原因,导致在大量信息的采集、传输和处理过程中出现具有不精准、不固定、随机且易变等特点的不确定性数据。出现在无线传感器网络、环境监测、金融、医疗、军事等众多领域的不确定性数据不断增多,其产生使传统的确定性数据挖掘研究面临着新的更大的挑战。在数据分析中聚类作为特征形成与提取过程当中的一种主要方式,成为数据挖掘中的关键课题。 针对不确定性数据聚类这一课题,当前国内外已取得一定研究成果。但是,仍存在不确定性信息较难获取,聚类算法精度不高,聚类处理效率较低,算法中参数需人为干预,动态数据流中数据模型无法与聚类模型进行实时匹配,以及异常值的检测处理策略不当等问题。鉴于上述存在的问题本文对其开展不确定性数据聚类算法方面的相关研究,并经过了一系列理论方面的分析及实验仿真的验证。本文所做的工作与成果主要有如下几方面: 1.首先简要说明数据挖掘的背景、意义与当前国内外的研究与发展现状,并对不确定性数据的产生、特点、表示及研究近况进行详实概述,同时剖析了到目前为止不确定性数据挖掘研究中仍存在的一些关键问题。之后围绕聚类这一课题的相关研究进行详细阐述,主要描述了聚类的数学定义、过程及面临的挑战,汇总了聚类中较为重要的几类相似性度量方式。最后详细说明了几种常见的确定性聚类算法与几类当下较为主流的不确定性数据聚类算法及不确定性数据流聚类算法,为后续的主要研究工作进行了理论铺垫。 2.鉴于目前基于划分的不确定性数据聚类算法中存在不能准确处理任意形状簇,无法有效剔除噪声,不确定性数据的表示欠合理,计算复杂度较高的相似性度量方法,以及较低的聚类效率和聚类精度等问题。本文提出一种基于区间数的不确定性数据UID-DBSCAN密度聚类算法,这一算法联系区间数与统计值描述属性级的不确定性数据,由区间数距离衡定不确定性数据对象间的相似度,从而降低了计算相似度的复杂度。同时为减少人工选取参数对算法效果造成的影响,充分考虑不确定性数据集自身的统计特性自适应地选取密度参值,以达到全程无监督聚类。仿真结果可得,UID-DBSCAN算法同已有算法相比,易操作、实用性强,表现出更高的聚类精度与处理效率。 3.鉴于不确定性数据流聚类算法存在过于理想化的不确定性数据表示方法,计算复杂度较高的不确定性数据对象间的相似性度量方式,密度参数较多、相关参值需人为干预且对结果敏感,聚类模型无法有效与数据模型进行实时匹配等问题。本文提出一种基于区间数的不确定性数据流自适应UIDS聚类算法,这一算法把区间数与均值及标准差相联系来描述属性级的不确定性数据流,由一种新的区间数距离衡定不确定性数据对象间的相似度,从而降低了计算复杂度,通过局部密度与相对距离相结合来构造簇中心权值函数以实现自适应确定微簇中心,运用当前微簇缓冲区与离群点缓冲区的双缓冲区模式存储数据,并提出改进的异常值检测方式实时监测数据流的变化情况以及微簇更新方法对数据流演化分析。同时设计一种新的可有效衡量属性级不确定性数据聚类质量的sim评估指标。实验结果可得,UIDS算法可以辨别任意形状簇且能有效处理噪声,与已有算法相比,表现出更高的聚类精度与处理效率。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。