将对来自美国小企业管理局(SBA)的约89万条借款企业的贷款数据进行分析,包括利用Python软件对数据集进行数据清洗、数据分析以及建模分析。因为该数据集的样本配比不均衡,所以在建模前使用了欠采样和smote过采样相结合的方法来处理该问题。贷款决策实际上是一个二分类问题,因此本例结合数据集性质建立的二分类模型有:单一模型K近邻、逻辑回归、决策树,和集成模型随机森林、GBDT、XGBoost。并且还通过调参来对各个模型进行优化,提升其在数据集上的分类效果。经分析结果发现,随机森林和XGBoost的分类效果最好,这也反映出在对大数据集的应用上,集成模型比单一模型有着更好的性能。