能了解linux操作系统,熟悉linux常用命令熟悉Java scala python开发语言熟悉hadoop的分布式文件系统,掌握hadoop集群搭建技术熟悉hive数据库工具,能够使用hsq进行业务报表的查询统计工作熟练使用 spark,对 spark-core, spark-sql以及 spark-streaming.具有很好的配合业务部门做好用户沟通,资料共享,技术协调的工作能力可以很好的配合客户经理完成与用户的技术交流,方案宣讲等工作熟悉掌握JAVA语言基础,大数据方面应用和需求,熟悉常用的Linux操作系统,能够编写简单的shell脚本熟练使用 Eclipse,IDEA 等开发工具,使用关系型数据库oracle,mysql等熟悉HDFS文件系统,MapReduce计算框架,以及Hadoop生态体系相关技术,能独立完成Hadoop集群环境的步骤熟悉Hbase数据库,能够独立完成Hbase集群环境搭建,可以使用Hbase对海量数据进行查询
项目架构:kafka+fume+hdfs+mr+hive项目描述:小说数据分析平台,采用大数据生态圈技术对全站数据(Web日志、本地数据库、埋点数据。)进行综合处理,通过分析用户粘度,注册量,搜索点击等信息,有助于分析用户相对不同类型小说的喜好程度,进而在相关的页面上推荐相应的小说。促进用户消费以及付费相应小说,提高平台支付转化率项目职责:按分析需求对原始数据进行数据清洗,日常K門数据(流量来源、操作系统偏好、营销对比、页面注册、跳出率、停留时长、小说板块/访问深度、注册/付费转化率)针对特定问颎采用已有模型或者自建模型进行分析与功能实现。利用 spark进行准实时分析整合hive、 hbase进行数据存储