java, scala,mysql, sql server 大数据生态系统技术栈(hadoop2.x, spark, flink, hbase,flume, kafka等)
对数据采集也有相关经验, 熟悉python, 熟悉scrapy2.x框架
有深度学习经验, 熟悉tensorflow2.x, pytorch
某影视网站的日志 , 离线/实时分析用户行为
数据来源log文件, flume实时监控服务器的log文件, 发送到kafka消息队列, 使用spark streaming进行实时数据处理, 将处理后的结果保存在redis数据库当中
此项目是一个实时统计计算某电影网站相关数据点击量的spark项目, 采用flume实时监听log文件, 发送到kafka消息队列进行消费, kafka集群使用zookeeper进行管理, spark进行拉去kafka消息, 进行数据处理, 将处理后的结果保存在redis非关系型数
该项目是基于Scrapy框架的爬取糗事百科段子的爬虫, 爬取后的数据存在关系型数据库MySQL中 例如https://www.qiushibaike.com/text/page/1/ 需要解析当前页面全部段子的url, 再发送请求解析获取需要爬取的数据 该项目只