精通linux系统(redhat,centos,ubuntu),精通java语言,熟练掌握大数据生态组件(flume,kafka,sparkstreaming,elasticsearch,hbase,springcloud)的应用和开发,全面了解大数据生态全部开发流程;(数据采集,数据清洗,数据存储,流计算,搜索,web客户端);精通python语言,熟练掌握python web相关开发框架以及开发思想,熟练掌握python爬虫程序开发以及scrapy分布式爬虫架构,熟练掌握机器学习原理和算法(线性回归,逻辑回归,决策树,集成学习等等)。工作中善于从全局看待问题,同时也不会忽视细节,善于学习和交流,能够团结同事,共同努力,完成任务,实现梦想。
项目壹
项目名称:警务大数据平台
项目描述:本项目是通过固定地点的wifi终端采集用户手机上的相关信息,并发送到大数据平台的服务器目录中,平台中的flume程序实时监控这些目录,将这些信息解析清洗校验后发送到kafka中,在通过sparkstreaming从kafka中拉取这些信息,经过sparktreaming处理后,可以分别将数据写到elasticsearch,hive,hbase,mysql,还可以监控手机号等敏感信息并通过短信、邮件等方式进行实时告警,在elasticsearch和hbase建立倒排索引,最后通过springcloud框架在web端实现展示和查询信息,还可以显示手机用户的实时移动轨迹。
项目职责:参与整个项目的流程和功能模块设计,具体负责flume,kafka,sparkstreaming部分的代码编写
项目贰
项目名称:电影推荐系统
项目描述:本项目分为离线电影推荐和实时电影推荐两个部分,离线推荐部分是通过读取用户历史的电影评分数据,通过spark的ALS算法来预测用户对未看过电影的评分,从而将预测评分高的电影推荐给用户;实时推荐部分是通过用户对电影评分来触发实时计算,计算过程是利用用户本次评分,用户最近k次评分,与该电影最相似的n个电影等数据,通过协同过滤算法,计算出最相似的n个电影的推荐优先级,此算法可以满足两个要求,一是计算量较小,满足实时性,二是每次或几次评分后,推荐结果变化明显。实时推荐部分采用的是kafka+sparktreaming流计算架构。
项目职责:独立设计项目中推荐子系统的流程和功能模块,完成全部代码编写
项目叁
项目名称:航空公司客户价值分析
项目描述:本项目通过聚类算法,预测航空用户的类别,进行精准营销处理。项目流程包括数据采集,数据预处理(数据清洗,
特征构建,数据标准化),分析建模,然后总结反馈,并基于LRFMC模型进行客户分类,最后营销团队根据不同类
别的客户采用不同的营销策略。
项目职责:独立完成项目所有流程的开发,使用sklearn机器学习框架,使用kmeans聚类方法对客户群进行分类,并通过雷达图
来找到最好的类别数量,最后总结类别特征,区分出客户价值,比如一般发展客户,一般挽留客户,重要发展客户,
重要保持客户等。
项目肆
项目名称:各大招聘网站职位信息采集系统
项目描述:1.通过charles抓包工具对招聘网站进行抓包,分析并破解js代码,得到用户登录和职位搜索算法,并用python语言将
其实现
2.将已实现的python爬虫程序,编写成scrapy框架,并结合scrapy-redis将职位信息存储到redis中
3.利用docker完成每台爬虫服务器环境的快速搭建,通过scrapyd-deploy将爬虫程序部署到其他爬虫服务器,再通
过scrapyd远程启动和监控爬虫程序
项目职责:1.负责整个系统的主程序编写,包括网页js代码的分析和破解和爬虫程序的编写
2.负责整个系统的部署和运维