摘要:
近来随着互联网金融的迅速发展态势,信贷P2P平台也爆出热潮,但由于风险控制体系不完善,征信问题漏洞百出,信贷平台也经历了低迷时段,因此信用评估模型是完善其征信体制加强风险控制的重要一环.不仅针对信贷行业,包括银行信用卡,蚂蚁花呗,京东白条等信...
展开
近来随着互联网金融的迅速发展态势,信贷P2P平台也爆出热潮,但由于风险控制体系不完善,征信问题漏洞百出,信贷平台也经历了低迷时段,因此信用评估模型是完善其征信体制加强风险控制的重要一环.不仅针对信贷行业,包括银行信用卡,蚂蚁花呗,京东白条等信用消费也需要提高信用评估这一核心技术,才能在竞争市场中脱颖而出. 本论文对美国lendingclub信贷平台提供的2007年-2018年第三季度的所有数据集进行数据清洗以及特征工程处理.并且探究几种不平衡数据采样在信贷数据集的适用性,通过Catboost算法、LightGBM算法、XGBoost算法对履约客户进行分类预测,对比其预测准确率、预测所需时间以及G-mean值等指标. 经过实验可知,经CURE-SMOTE方法处理不平衡数据得到的人工样本更符合信贷数据的实际样本特征,从而有利于评估模型的训练.由于本数据集在经预处理后一共有126万个信贷客户,122个样本特征,数据集大小约2.0GB.在这样的数据集下经过CURE-SMOTE采样处理后,利用Catboost算法预测履约客户的准确率为0.8352,G-mean值为0.82,预测时间需要40s.LightGBM算法的准确率为0.808,G-mean值为0.781,预测所需时间为55s.XGBoost算法的准确率为0.796,G-mean值为0.766,预测时间需要200s.因此分析以上结果可知,Catboost算法比LightGBM算法、XGBoost算法预测效果更好,预测时间更短,并且Catboost算法的分类准确率要比lendingclub信贷平台上提供的平均履约率0.7882高了近5个百分点.如果此信贷平台采用本论文的CURE-SMOTE采样和Catboost分类预测违约客户的方法,可有效的帮助信贷平台规避一定的赖账风险.
收起