北航-华融金融科技联合实验室
项目描述:
1. 数据处理:对以个人信贷为主的个人不良资产进行数据分析(数据规模:80w条数据,150项特征):在数据预处理阶段,删除缺失比例超30%的特征;其余缺失特征以平均值填充;观察每一个剩余特征的数值分布,对照数据字典识别异常值;对华融消费金融(合肥)公司提供的小额信贷数据进行数据分析(数据规模:10万条数据,27项特征),构建个人不良资产评估模型。根据银监会个人不良资产资金回收率构建预测标签:即构建“已回收资金/应还本息总额”特征,并尝试在[0.25-0.5]区间上划分正负样本;
2. 特征工程:使用python+numpy+pandas+matplotlib探究违约用户与正常用户各项特征的数据分布,重点关注违约用户与正常用户数据分布不同的特征;
3. 模型开发:用LightGBM识别用户违约标签,模型通过特征权重反映特征重要性,以满足金融业对模型可解释性的要求;
4. 论文撰写:已投稿sci论文《A comparative study on machine learning methods combining with outlier detection and balanced sampling for credit scoring》
投稿期刊:Expert Systems With Applications