尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 软件缺陷的发生是因为开发人员在进行程序编写时对需求没有正确理解,开发人员缺乏经验或者开发过程不合理都会产生软件缺陷。而含有缺陷的软件系统在运行时可能会导致严重的后果,甚至带来不可磨灭的损失。由此,软件缺陷预测技术成为当前国内外研究... 展开 软件缺陷的发生是因为开发人员在进行程序编写时对需求没有正确理解,开发人员缺乏经验或者开发过程不合理都会产生软件缺陷。而含有缺陷的软件系统在运行时可能会导致严重的后果,甚至带来不可磨灭的损失。由此,软件缺陷预测技术成为当前国内外研究的热点。 目前的研究通常将缺陷预测的实现形式化为一个机器学习问题,很多机器学习技术被用于缺陷预测。然而,现有的缺陷预测方法在实际应用中还存在许多问题。例如,这些方法的性能不够稳定,在高维数据情况下(如存在大量冗余、无关的度量元),预测精度不高,而在实际应用中高维数据是很普遍的。另外,由于有缺陷类(又称“正类”)通常远少于无缺陷类(又称“负类”),即缺陷历史数据具有类别不平衡性,容易造成预测模型更倾向于负类,从而降低了正类的预测精度。 本文针对软件缺陷预测所存在的问题,进行了系统研究。主要研究工作如下: (1)过采样与集成学习方法在软件缺陷预测中的对比研究。 针对软件缺陷预测中类别不平衡问题的处理,研究如何将数据层面的不平衡处理方法与算法层面的不平衡处理方法有效地结合在一起,从而获得更好的缺陷预测性能。重点考查RandomOverSampler、SMOTE、Borderline-SMOTE、ADASYN这四种过采样方法,以及Bagging、Random Forest、AdaBoost、GBDT这四种集成学习方法。通过将上述过采样方法与集成方法两两组合在一起来进行缺陷预测,从而比较这些组合策略在处理软件缺陷预测中不平衡问题上的性能优劣。在多个NASA数据集上的实验表明:过采样方法ADASYN与集成方法GBDT的组合能够为软件缺陷预测中不平衡数据的处理提供最有效的结果。 (2)基于混合采样的随机森林算法及其在软件缺陷预测中的应用。 针对缺陷预测中的类别不平衡问题,提出一种基于SMOTE与K-modes聚类的混合采样技术HSSKM,并将该技术与传统的随机森林算法结合在一起,从而得到一种基于混合采样的随机森林算法HSRF。HSRF算法首先对不平衡的缺陷预测数据进行混合采样,即利用SMOTE对有缺陷样本进行过采样,并利用K-modes聚类对无缺陷样本进行降采样,从而得到一个平衡的数据集;其次,在这个平衡的数据集上,HSRF进一步利用Bootstrap抽样和随机子空间方法生成多个训练集,并在每个训练集上构建一个CART决策树;最后,将所有决策树通过给定的投票策略集成在一起,从而得到一个随机森林。通过在NASA数据集上的实验表明,HSRF算法能够显著提高有缺陷样本的预测精度,从而有效处理缺陷预测中的类别不平衡问题。 (3)基于特征选择与Bootstrap抽样的决策森林算法及其在缺陷预测中的应用。 针对缺陷预测中的特征选择问题,提出一种基于条件信息熵与随机子空间的特征选择算法FSCERS,并将该算法与Bootstrap抽样结合在一起来改进传统的随机森林算法,从而得到一种新的集成学习算法,即基于特征选择与Bootstrap抽样的决策森林算法DFFSBS。DFFSBS算法首先运用Bootstrap抽样方法对数据集进行抽样,从而得到多个抽样集;其次,运用FSCERS算法对每个抽样集进行降维,从而得到多个降维后的抽样集;第三,将每个降维后的抽样集作为训练集,并在每个训练集上构建CART决策树;最后,将所有的决策树根据给定投票策略集成在一起,从而得到一个决策森林。通过在NASA数据集上的实验表明,DFFSBS算法能够有效降低软件缺陷预测数据集中的属性维度,从而提高缺陷预测效率。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。