熟悉hadoop,hive,flume,spark等大数据生态圈相关组件,kafka,熟悉ELK组件;常见的机器学习算法,以及深度学习相关算法。熟悉python网络爬虫;熟悉Tableau,帆软报表开发工具;
SparkStreaming+kafka生产环境实时销量计算
生产环境作为消息生产者,将产生的数据发送到中kafka集群,不同的数据,不同的topic,sparkStreaming作为kafka消费者,消费kafka推送的流式数据,计算, (Spark自己管理kafka的offset)
ELK实时日志分析系统
Python网络爬虫