尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 类不平衡学习旨在解决传统监督学习算法在数据分布不均衡情况下的性能下降问题,已经成为机器学习、数据挖掘和人工智能领域的研究热点之一。决策阈值移动作为一种后处理的技术,已被证实是解决类别不平衡问题的有效策略。然而,无论基于经验还是基于... 展开 类不平衡学习旨在解决传统监督学习算法在数据分布不均衡情况下的性能下降问题,已经成为机器学习、数据挖掘和人工智能领域的研究热点之一。决策阈值移动作为一种后处理的技术,已被证实是解决类别不平衡问题的有效策略。然而,无论基于经验还是基于优化思想的决策阈值移动策略,都试图为所有样本确定同一个补偿阈值。从而导致分类超平面只能平移,而不能改变其方向。这种策略可能会使学习模型在同一数据集中的某些数据上过度补偿,而在另一些数据上欠补偿,从而限制了其性能,特别是在一些复杂和密度可变的数据上。 为了进一步提高现有决策阈值移动策略的性能,本文提出了一种改进的算法,即基于聚类的决策阈值移动(CDTM)算法。该算法将多数类训练实例划分为多个不同的密度区域,并进一步对每个区域独立进行决策阈值移动操作,以获得最优补偿阈值组合。具体来说,本研究首先采用著名的基于密度的噪声应用空间聚类算法(DBSCAN)来分割训练集,以此来探索样本的先验分布,因为它可以很好地适应密度变化。然后,采用基于优化思想的决策阈值移动技术单独处理具有不同样本分布的聚类簇,为其确定独立的补偿值。在预测过程中,对于每一个测试实例,首先通过高斯朴素贝叶斯(GNB)规则确定其所属样本分布,然后调用相应的决策阈值移动算法对其进行分类。本研究在支持向量机(SVM)和极限学习机(ELM)的背景下,分别验证了提出的CDTM算法的有效性和优越性。在40个基准类不平衡数据集上的实验结果表明,所提出的CDTM算法在G-mean性能指标方面优于其他几个最先进的决策阈值移动算法。 在很多现实领域中经常存在不均衡的数据分布。因此,本研究将在二手车交易领域中进一步验证类不平衡技术的有效性以及CDTM算法的鲁棒性。首先,本研究将二手车交易市场的车辆信息作为原始数据集,对其特征及其含义进行了研究,采用缺失值处理、离散属性连续化和min-max标准化处理等多种数据预处理手段,以确保数据集的完整性和准确性,为后续建模和分析提供了基础。在最终形成的二手车数据集上,使用G-mean和F1-measure作为评价指标,比较了CDTM算法和几种经典的决策阈值移动算法的性能。结果表明,无论是基于SVM还是ELM,CDTM算法都表现出最强的鲁棒性和性能。此外,实验还证实了类别不平衡技术在二手车交易领域中的优异效果,为该领域中存在的类别不平衡问题提供了可靠的解决方案。这一结论强调了类别不平衡技术在汽车产业领域中的成功应用,为相关领域的研究提供了有价值的参考。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。