精通Python类大数据分析
【1】Python数分:数据获取+数据清洗+数分+数据可视化的数分经验(pandas,numpy,matpoltlib,seaborn,pyecharts,pyhive,pymysql,scikit-learn);
【2】Mysql+Hive数仓:智能营销和淘宝用户行为SQL分析;Hive窗口函数和分区表+分桶表+内部表+外部表;
【3】Python爬虫:爬京东+小米商品数据,爬豆瓣电影和评论,爬城市二手房信息;
【4】Hadoop和Docker:搭伪分布式集群,hive数仓数分
(1)聚合支付商户分析
A.去重 merge表,pivot_table 分组聚合 TOP 5排序分析;
B.按年-月求.sum()和按天的.cumsum()滚动交易额以及占比 pie图,按城市和 top10_bd 排名交易总额和交易笔总数 bar图,line 图和 box 图以及 pie图;
C.按 merchant_id 排名交易笔数[30,100,300,500,1K,3K,5K,1W,1W+]正态分布图;
D.corr(),std(),cov()分析 GMV 和交易笔数,BD数,cost 相关性;
E. Pyecharts 交互股票式 GMV 折线图,overlap 图和 Page 大屏图;
(2)电商用户消费行为分析
A.time 列转成 datetime ,按 month 统计购买数量,整体消费金额,消费次数,消费人数;用户个体消费金额,消费次数 bar图,line 图和 scatter图;
B.用户消费行为:首次购时间和最后一次购买时间;用户分层,计算R-F-M值,用户分层 scatter()图;
C.新老-活-回流用户数分,用户购买周期,用户生命周期分析,复购率和回购率数分
(3)电商零售客户数分
A.提取订单时间去重,异常数据占比;按月分组,销量最多月 bar图;
B. 按城市分组,按购买量求和排序,购买商品数量前10城市 bar图;
C.计算客单价;按客户 ID 分组,汇总销售数量和销售额,用户平均消费金额和消费次数;
D. pivot_table 算年度退货率;算R-F-M值,各分位数段客户消费频次,RFM 数据转换,RFM 价值判断,各用户等级个数统计,用户等级 bar 图和用户等级比例 pie图;
(4)双十一淘宝化妆品销量数分
A.处理缺失值,销量和销售额众数,宝贝标题分词,转时间列为 datetime并 index ,算各店铺商品数量 bar图,各店铺品牌总销量和品牌总销售额 bar图,化妆品和护肤品销量占比和子类别销量占比 pie图,各品牌各总类总销量 bar图;
B.各品牌各子类总销量,各品牌各子类总销售额 bar图;各品牌商品平均评论数 bar图,各店铺价格箱型图,各品牌产品平均价格 bar图,各店铺品类销售量和销售额散点图,bar 图分析男性护肤品销量,11月按天统计日销量;
(5)电子产品 RFM 分析
KA 客户分析,消费人群画像分析,产品分析,销量分析,订单分析,月度会员分析,用户分层,复购率与订单分析,二次订单间隔分布分析,会员 RFM 分析;
(6)O2O消费券线下使用情况分析
A.去重,将日期转成 datetime ,把折扣率列的满减换算折扣率,进行['有券未消费','无券且消费','有券且消费']占比 pie图;
B.在有券消费人中,分析距离和优惠折扣,算到店消费人数与平均距离和折扣力度相关系数,每天优惠券总体发放量与使用量 bar图,算每天优惠券使用与发券量占比 bar图;
(7)klook 客路旅行业务分析
A.去重,按游客分组,统计游客消费次数和消费金额,merge 并表,分析用户购买[2次以上,1-5次]分析 hist图,['1次','2次','3次','4次','5次']pie图;
B.月复购率分析,复购用户人数 hist图,回购率分析,pivot_table 频次表,每月回购人数分析,def()计算月分层用户占比,算月活跃用户回流用户占比 pie图,用户生命周期 hist图,算时段用户留存率留存天数并 pie图;
(8)kaggle 电子游戏数分
游戏时间、类型、发布平台,发行商 pivot_table 分析,年游戏发行 bar图,游戏发行商 TOP10分析,游戏收入排 TOP10发行商 bar图,发布平台总销量 bar图;
(9)广告投放效果分析;
广告90天内日均 UV ,平均注册率、平均搜索率、访问深度、平均停留时长、订单转化率、投放时间、素材类型、广告类型、合作方式、广告尺寸和广告卖点分类分析, 平均停留时间与访问深度 corr 相关性分析,Top25日均 UV 状况及其广告投放总时间,广告类型/卖点与平均注册率、订单转化率关系;
(10)闯关类游戏数分
按渠道效果:每日新增用户数、活跃用户数同环比,活动转化率、第7日加权留存率、付费率、ARPU、ARPPU、CPL 买量成本、LTV 和 ROI ;然后数值标准化处理,计算均值,标准差,标准差系数,赋予权重综合计算排名;
【1】Python数据分析类 1.1 做过35个数据分析中小型项目,涉及kaggle和飞桨的电商,支付,新零售,股票,生物,气象领域数据; 1.2 具备扎实的Python数据获取+数据清洗+数据整合+数据分析+数据可视化的数据分析经验(pandas,numpy,matpo
A.数据清洗,提取订单时间中的:年-月-日,去重,分析异常数据占比和特点;按月分组,销量最多的月份排序可视化bar图; B. 按城市分组,按购买数量求和,按数量求和排序,购买商品数量前10的城市--可视化bar图; C.计算客单价;按客户ID分组,汇总销售数量和销售额,计算用
A.数据清洗:处理缺失值,查看sale_count和comment_count列的众数,对宝贝标题进行分词处理,将销售额作为新的一列,转换时间列格式为datetime并作为index,计算各店铺的商品数量绘制bar图,计算各店铺品牌总销量和品牌总销售额绘制bar图,根据化妆品和护