尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 随着信息化的普及,海量数据逐渐产生,数据表现出高维,多源和异构等特点。拥有这些特点的数据给机器学习,模式识别,计算机视角,信息检索等领域带来了严峻的挑战。为了较好的从数据集中获取有用信息,通常采用矩阵分解的方法,具体表现形式为将一... 展开 随着信息化的普及,海量数据逐渐产生,数据表现出高维,多源和异构等特点。拥有这些特点的数据给机器学习,模式识别,计算机视角,信息检索等领域带来了严峻的挑战。为了较好的从数据集中获取有用信息,通常采用矩阵分解的方法,具体表现形式为将一个数据矩阵分解为多个低维矩阵表示的形式,以此达到降低数据维度的目的。非负矩阵分解是基于局部的、具有较强的心理学和生理学意义,以及具有可解释的非负纯加性特征的矩阵分解算法,自提出以来被广泛应用在各种高维数据处理上,其中一个重要优化改进是结合流形结构背景提出的图正则化非负矩阵分解。然而,图正则化非负矩阵分解算法及其之后的一系列优化改进,均不能保证降维后的数据空间流形结构真的对应降维前数据的空间流形结构,也难以保证多维数据中欧式距离近的样本是真的特征接近。本文针对上述的不足,提出相应优化改进方法,并将其应用到高维数据聚类。主要研究工作和创新如下: 1)针对图正则化非负矩阵分解中仅基于局部不变性假设进行流形降维,难以确保数据降维后,其流形结构依旧不发生变化的问题,提出基于误差图的非负矩阵分解方法。通过构建误差权重图,将每次降维后的流形结构与降维前的流形结构进行对比,然后根据误差权重图的反馈,对降维后的系数矩阵进行相应调整,使误差权重矩阵趋于稀疏化。在四组不同的数据集上实验结果表明,该优化方法,不仅能在降维过程中维持数据集流形结构的稳定性,使数据降维效果更加准确,而且当数据样本维数越大时,聚类精度提高的越高。 2)针对图正则非负矩阵分解中采用欧式距离的方式来计算两个样本点之间的距离,会均衡化不同特征之间的差异,从而使聚类结果变得不准确的缺陷,提出基于加权矩阵的图正则化非负矩阵分解。该方法采用点乘的方式对系数数据矩阵中大值进行加强维护和小值进行缩小惩罚,有效降低特征突出部分信息的缺损以及减小了欧氏距离计算导致的信息均衡化这一缺点。实验结果表明:基于加权矩阵的图正则化非负矩阵分解方法是有效的,并且在所有NMF的图正则化上具有推广性。 总结,本文从高维数据降维过程中的流形结构维护,数据特征保护两个方面进行展开,相应提出两种基于非负矩阵分解的优化方法,用于提高算法准确度。通过算法的理论推导以及在真实数据集上的实验,都表明本文所提出的优化方法的可行性与有效性。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。