熟悉Python,熟悉相关爬虫库:request,beautifulsoup, urllib,pandas库,能进行数据预处理。
精通SQL。
熟练掌握Hadoop各组件及原理。
熟悉Spark流批一体计算框架,core(RDD)、sparkSQL、sparkStreaming组件。
一、物联网数据仓库搭建
从0搭建CDH大数据平台,梳理业务数据设计数仓分层结构。
二、时空大数据项目
四川省基站用户位置数据处理,开发相关应用或场景下的结果表;百度地图数据爬取,包括经纬度,所在地市,类别。
工作内容主要是数据开发相关包括使用大数据组件开发报表、搭建数仓、数据爬虫爬取并预处理数据等,因数据保密性不方便展示数据结果。展示爬取的部分地图数据结果。
某地图平台用python脚本爬取并处理后的标签数据展示,脚本可固化。。。。。。。。。。。。。。。。。。。。。。。。