熟练应用 Python 及其相关库(如 Pandas、Numpy、Matplotlib 等)。
熟悉数据分析全流程,熟练掌握各种数据分析常见工具。
熟练 Excel 函数应用(如:vlookup、sumif、countif 等)、Mysql 数据库语句、PowerBI 等工具进行数据分析及
可视化操作。
具备一定的数据挖掘能力,能够使用 SKlearn 等常见科学计算库进行分类、回归、聚类、降维、词向量分析等创
建数据模型,完成对数据的分析及预测。
信用卡交易欺诈风险预测
项目背景:为了预测持卡人是否会发生信用卡被盗刷,通过利用信用卡的历史交易数据,进行机器学习,构建信用卡
反欺诈预测模型,提前发现客户信用卡被盗刷的事件。
工具:Python(Pandas、Numpy、Matplotlib、逻辑回归、随机森林、XGboost 模型、Bagging 算法)。
主要职责:
数据提取与清洗:获取用户信息数据,对数据基本情况、统计值等进行查看。
特征工程:(1)对这两列特征进行标准化处理;(2)查看特征值与因变量标签之间的关系以及对数据进行共线
性筛查;(3)对数据分类标签查看被盗刷与未被盗刷比例失衡情况,被盗刷占所有交易的 0.172%,因此采用
随机过采样方法平衡数据集。
模型和调优:选取逻辑回归、随机森林、XGboost 和 Bagging 算法进行交叉验证训练,对比模型效果,并使
用网络搜索找到相应的最优超参数。
模型迭代和评估:(1)将各模型对应的最优超参数带入对应模型中,并计算出准确率、精确率、召回率、
F1_score 和 AUC 曲线面积;(2)选出 AUC 面积值最大的两个模型(逻辑回归和 XGboost)再进行
VotingClassifier 集成学习。
项目成果:
该集成学习模型最终预测准确率、精确率、召回率都达到 90%以上,基于此模型对信用卡交易数据进行预
测能找出更多的信用卡被盗刷的持卡人,有助于平台对危险用户进行识别和处理,降低风险。
项目介绍:根据某电商平台最近一年的销售数据,基于 RFM(Recency, Frequency, Monetary)模型,对客 户行为和价值进行深入分析,以优化市场营销策略和提升客户满意度。 主要职责: 使用 Python 和 SQL 从电商平台的数据库中提取和清洗大规
项目介绍:根据某电商平台最近一年的销售数据,基于 RFM(Recency, Frequency, Monetary)模型,对客 户行为和价值进行深入分析,以优化市场营销策略和提升客户满意度。 主要职责: 使用 Python 和 SQL 从电商平台的数据库中提取和清洗大规
项目介绍:根据某电商平台最近一年的销售数据,基于 RFM(Recency, Frequency, Monetary)模型,对客 户行为和价值进行深入分析,以优化市场营销策略和提升客户满意度。 主要职责: 使用 Python 和 SQL 从电商平台的数据库中提取和清洗大规