在项目中进行数据爬取,数据建模,数据分析一职.
爬虫:爬取各个网址指定数据,公众号数据或者app数据.爬取的数据利用工具进行清理生成excel文档或者放入数据库.
数据建模:根据顾客指定的需求从多个不同维度建立的数据模型脚本(hivesql,sparksql).
数据分析:把爬取的数据或者建模生成后的数据进行数据可视化.(Pyecharts,tabluea).
项目责任描述:爬取平台指定的需求数据包含5A级景区,行政区域,机场火车站的经纬度范围,指定微信公众号图片url,以及贝壳重庆地区房源数据.
项目描述:该需求分别需要从工作,消费,出行来统计CBD商圈工作者用户行为。具体需求指标:日均工作时长,平均加班次数,年龄分布,到达其他城市或者国家top3人数,出行范围等
项目责任描述:开发构建高质量用户模型,分析模型可行性以及从哪些纬度分析。利用平台现场的表数据表字段来构建模型。 根据er图编写hivesql开发模型脚本。测试跑取从来的数据量。编写明细开发说明脚本。画出各个模块的ER图以及权重分配图。
使用百度api爬取商圈的基础信息与经纬度范围.当然也可以爬取其他地区信息.或者其他网站数据或者app数据.
开发构建高质量用户模型,分析模型可行性以及从哪些纬度分析。利用平台现场的表数据表字段来构建模型。 根据er图编写hivesql开发模型脚本。测试跑取从来的数据量。编写明细开发说明脚本。画出各个模块的ER图以及权重分配图。