项目职责: 1. 数据探索 EDA,查看周,月的购买情况。
项目经历
2. 数据预处理,数据集完整性验证,特征过滤,正样本:有过非购买行为,且有购买行为
的用户记录(针对同一商品),负样本:有过浏览等行为,但最终没有购买行为的用户记录。 3. 阶段分析,针对用户购买意向与时间的关系,以及对差评的关系. 4. 构建模型,预测未来一周的活跃趋势,策 略复盘。
技术要点:
1. 获取特征(用户数据,商品数据,评论数据,行为数据)等 70 个特征(70w 条数据),并对
其数据处理,去除无用数据,数据清洗,最终保留 65w 条数据。
2. 数据探索 EDA,使用 matplotlib 针对特征画热力图,各种特征画出柱状图观察购买情
况,比如,在用户特征中,发现 22 岁-40 岁年龄段的客户为主力军。 3. 使用 matplotlib 画出单特征与商品买与不买的柱状图,比如评论,单价,评论数,星
期维度,功能维度的关系
4. 通过 EDA 分析,选择商品特征和用户行为特征,确定用户&相关商品的关系,构建训练
集以及测试集。
5 构建 stacking 分类器,使用随机森林,逻辑斯蒂,决策树,GBDT,XGBoost 模型,调
参,训练的准确率为 0.891,测试数据为 0.883。
6. 设定阈值 0.5,加载一周(5 天用户数据),构建预测列,以及真实标签列,计算预测用户
准确率 0.896。