负责过Hadoop集群的搭建、Elasticsearch集群的搭建
编程语言:Java+Scala+Python+Shell
对Spark较为熟练,有实时数据处理经验,有Spark-Streaming、Spark调优的经验
对MR的原理熟知,阅读过源码,可以进行二次开发
以下大数据组件有实际使用经验:Oozie Hive HBase Flume Elasticsearch Logstash Kibana HDFS Zookeeper Kafka Yarn
有数据的清洗、转换、分析经验
有机器学习算法使用经验,做过实际的个性化推荐系统项目
有python爬虫的经验,可以负责数据的爬取,ETL处理整个流程
1.景星数据处理平台的重建和迁移
项目描述:景星公司原有的数据处理平台是用Python完成的,随着公司数据量、处理量和计算量的提升,原有的系统已经不堪重负。需要对其进行升级,使用大数据平台完成整个业务的处理过程。
2.珍我商城公众号物品个性化推荐项目
项目描述:对登陆珍我商城的用户进行用户画像,使用基于物品的协同过滤算法,精准化的对用户进行商城内物品推荐与展览,挖掘物品的长尾性,使流量的作用最大化。使用个性化的推荐系统后,实现了CVR提升183.24%,CTR提升58.39%,完成了项目的指标。
3.沈阳市交通路网可视化ETL项目 第一期
项目描述:交通路网数据可视化ETL项目主要为了方便路网可视化部分提取所需要的数据,最初的数据是从各个厂商的摄像头传入的,由合作公司把每一天的数据生成orc文件,然后进行处理生成路网可视化所需要的数据,对城市的交通情况做一个预估。
4.小理简报App 业务数据支持系统(阶段1)
项目描述:本项目主要是为了给小理简报在全网范围内搜索资讯类文章,利用SparkStreaming实时获取最新的文章,为小理简报的运营部门提供海量且实时的数据支持,为公司提供丰富的数据储备。