1、熟悉掌握java、熟悉linux系统常用命令,shell脚本编写
2、熟悉python编程
3、熟悉数据仓库
4、熟悉阿里云、aws
5、熟悉hadoop、hive、impala、spark等大数据组件
4、熟悉各种etl处理工具,如kettle,sqoop等
1、使用python爬取互联网数据,并对数据进行结构化处理并导入到关系型数据库
2、使用大数据组件处理分析非结构数据与结构化数据
3、使用java语言,spring boot开发框架搭建后台开发项目
非结构化数据分析系统,主要用于将非结构数据通过数据探测,数据分类,阵地快提,数据落地,数据入库,PDF提取,HTTP提取等方式变成结构化的阵地数据输出,并与数仓进行对接,为下游业务贡献数据 项目职责: 1.对接数据入库模块,对入库的HDFS文件进行解析,清洗,数据输出到HIV
负责数仓的分层和一些 DWS、ADS 常用指标的分析。比如流失用户数,最近连续三天活跃用户,最近七天内连续三天活跃用户等。流失用户数就是最近七天未登录的用户,将日活表按照 id 分组,然后取出该 id 对应的最大时间,判断是否为最近的七天得到最近七天未登录的用户然后计数。连续三天