尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 在人们的生活中存在大量的不平衡数据。研究表明,传统以最大化分类准确率为目标的机器学习算法倾向于将待测试样本划分为多类,而忽视少类的识别率。然而,通常少类样本具有重要的信息,是人们感兴趣的对象。对于分类问题,我们在设计分类器时需要考... 展开 在人们的生活中存在大量的不平衡数据。研究表明,传统以最大化分类准确率为目标的机器学习算法倾向于将待测试样本划分为多类,而忽视少类的识别率。然而,通常少类样本具有重要的信息,是人们感兴趣的对象。对于分类问题,我们在设计分类器时需要考虑数据的不平衡特性,否则学习算法可能产生错误的决策。 不平衡学习存在两种主流的方法:数据和集成层面的方法,其中,数据层面的方法一般有过采样、欠采样和混合采样,而集成的方法通常是指结合Bagging或Boosting的算法。在本文中,我们重点研究了过采样和欠采样(统称为重采样)方法,然后将其与集成学习相结合进行了推广: (1)针对稀疏样本和邻域异类样本较多的样本容易被分类器错分的问题,提出了基于样本加权的过采样方法。该方法对这两类样本赋予较大的权重,进而合成更多样本为学习算法添加新的样本信息。 (2)通过对支持向量机SVM的研究,分类结果通常偏向于多类样本,且与分类面相距较近的样本保留较多的分类信息。因而,本文提出了基于间隔的欠采样方法,将分类面朝着多类样本空间的方向平移适当的距离,对相距修正后的分类面较近的多类样本实施欠采样。 在KEEL不平衡数据集上的实验结果表明,本文方法提升了不平衡数据的分类性能。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。