尊敬的各位读者:
根据当前疫情防控要求,我馆部分原文传递服务可能会有延期,无法在24小时内提供,给您带来的不便敬请谅解!
国家工程技术图书馆
2022年11月29日
摘要: 随着大数据时代的到来,我国信贷市场正在不断朝气蓬勃地发展,这不仅促进了我国经济发展,同时也给金融市场带来一定的风险和挑战。因此,我们可以充分利用信贷市场中客户的信用数据特征来创建有效的信用评分模型,这既利于金融信贷机构识别交易中的... 展开 随着大数据时代的到来,我国信贷市场正在不断朝气蓬勃地发展,这不仅促进了我国经济发展,同时也给金融市场带来一定的风险和挑战。因此,我们可以充分利用信贷市场中客户的信用数据特征来创建有效的信用评分模型,这既利于金融信贷机构识别交易中的不良贷款从而减少损失,也对金融市场的良性发展起到了一定的推动作用。此外,构建一个稳定可靠的信用评分模型固然十分重要,但考虑到信用评分数据的不平衡特点,因此还需要注意对不平衡数据的处理,从而建立预测性能较优的信用评分模型。 本文就信用评分领域中的数据不平衡问题展开了研究,利用德国信贷数据集分别对比了LR、KNN、NB、SVM、RF和XGBoost分类模型在11种采样算法下的模型分类性能。同时也对六个分类模型建立了空白实验,即评估默认参数模型下的预测性能,并利用网格搜索方式对模型进行了参数调优。 基于本文所研究的数据集得出以下结论:(1)使用网格搜索进行参数调优后的模型分类性能明显优于只使用默认参数的单一模型。文中列出了六个分类模型的部分最优参数,实验发现调参后模型的AUC、F-score和G-mean三个评价指标值均有所提升,说明在对信用评分数据集进行建模时,调整模型的参数对模型分类性能的提升有较大帮助。此外基于本文使用的数据集,参数调优后AUC值排名前三的单一模型分别为SVM、LR和XGBoost模型。(2)使用采样方法处理过的模型分类性能明显优于原始默认参数下的模型。实验结果表明,经过大多数采样方法处理过的模型,其AUC值会高于默认参数下的模型。这是因为原始数据进行采样处理之后,要么减少多数类样本数要么增加少数类样本数或者结合两种方式,从而降低数据集的不平衡程度,增加了分类模型的预测性能。因此,针对信用评分领域数据的不平衡特点,可以考虑先使用相关采样方法来降低数据的不平衡程度,从而提升模型的分类性能。(3)基于本文数据集,大多数经过欠采样方法处理的模型的分类效果是优于过采样方法处理的模型。本文实验结果表明,与多种采样方法相结合的六个分类模型中AUC值最高的分别为RUS-LR、RUS-KNN、ENN-NB、ENN-SVM、Tomek Links-RF和RUS-XGBoost模型,并且RUS、ENN和Tomek Links均为欠采样方法。因此基于德国信用数据集,可以考虑使用欠采样方法对数据做平衡处理。 收起
系统维护,暂停服务。
根据《著作权法》“合理使用”原则,您当前的文献传递请求已超限。
如您有科学或教学任务亟需,需我馆提供文献传递服务,可由单位单位签署《图书馆馆际互借协议》说明情况,我馆将根据馆际互借的原则,为您提供更优质的服务。
《图书馆馆际互借协议》扫描件请发送至service@istic.ac.cn邮箱,《图书馆馆际互借协议》模板详见附件。
根据《著作权法》规定, NETL仅提供少量文献资源原文复制件,用户在使用过程中须遵循“合理使用”原则。
您当日的文献传递请求已超限。