熟练掌握Python基础语言, 高级语法;
熟练使用Numpy、Pandas进行数据处理分析析以及 Matplotlib、seaborn 等数据可视化工具;
熟练使用EXCEL、POWERBI、TEABLEAU、SPSS、XMind等软件;
熟悉常用的机器学习算法,如:KNN、KMeans、Linear Regression、Ridge、Lasso、LogisticRegression、Decision Tree、 Random Forests、GBDT、SVM 等;
熟悉特征工程建设,如数据预处理(数据清洗、缺失值处理)、特征选择、降维,StandardScaler、MinMaxScaler、特征缩放等;
熟悉 GridSearchCV 网格搜索、cross_val_score 交叉验证等模型调优方法等;
熟悉常用的模型评估指标,熟练解决常见的模型问题,如过拟合、欠拟合等;
熟练使用jieba分词库,朴素贝叶斯模型进行文本处理;
熟练使用Mysql、Redis、MongoDB等数据库;熟悉多表联表查询、事务;分组、聚合操作;
熟悉RFM用户价值模型、人货场模型、AARRR模型、RARRA模型、漏斗模型等;
熟悉Scrapy-Redis 分布式爬虫软件架构,有一定的反反爬能力;
了解深度学习TensorFlow框架;
了解一些统计学基础: 极大似然、最小二乘法、点估计、区间估计、置信区间等;
项目名称:淘宝爬虫
项目简介: 利用爬虫从淘宝网站上获取用户评价信息,对爬取到的数据进行汇总,分析用户对产品评论的关键字,为自家产品提供有效的分析建议。
相关技术:PyCharm、Scrapy、Xpath、Numpy、Pandas、Matplotlib、Selenium、MySQL
项目职责:
选取多个起始URL,构建Scrapy-Redis分布式策略。
使用Xpath进行数据解析提取。
通过管道Pipeline将数据存入MySQL数据库。
对数据进行预处理,分析用户评论关键字并给出建议。
项目名称:电商销量预测
项目简介:为迎合今年双十一、双十二的到来, 公司根据商品的历史销售记录,预测了3个月的销售情况,并给采购部门和业务人员产品推广提供数据支持,帮助公司实现数据化运营管理。
相关技术:Numpy、Pandas、Matplotlib、Seaborn、SVR、RandomForce
项目职责:
明确业务逻辑,观察历史数据,通过观察的方式发现数据中是否有季节性、缺货、异常销售等情况;从中截取合适的时间节点数据。
根据不同的特征指标对现有数据进行分组,对结果进行分析比较。
分析不同的因素对销量的影响,画出散点图,并计算回归参数。
使用不同的模型进行建模,预测3个月的销量,为采购部门的采购下单安排,业务人员的发货等提供数据支持。
项目名称:电商用户行为分析
项目简介: 为了降低疫情下带来的影响, 公司推出了一系列的营销活动。通过对这些活动的分析,促进GMV的提高;扩大品牌的知名度,吸引更多客户。
相关技术:Numpy、Pandas、Matplotlib、Seaborn、RARRA、RFM
项目职责:
统计活动期间DAU、MAU、PV、UV、CTR等指标,形成可视化数据。
分析指标数据,若有波动或异常要分析原因、并形成报告。
分析活动的影响:包括对活动前和活动后的影响,分析商品价格走势、客单价走势、活动的爆发度、衰减度等。
分析活动的效率:主要是关注投入产出,分析各渠道的推广费用、带来的流量、销售额、费销比等。
复盘总结:通过对本活动的分析,来发现活动的不足之处,对已经过去的活动进行评价,对未来的活动进行调整。