熟练使用Java,Scala语言编程,了解python,C/C++,matlab;
熟悉Hadoop的分布式文件系统相关组件的原理,掌握Mapreduce原理和执行流程,实现编码;
熟悉 SparkRDD、SparkSQL、SparkStreaming开发;
熟悉Hive的工作原理,了解数据仓库建立,完成对数据主题抽取和多维分析;
熟练使用mysql关系型数据库进行数据的CRUD操作;
熟悉impala、kudu等存储引擎的原理,并熟练使用;
理解HBase的存储原理及架构,掌握行键的设计原则以及HBase的调优,实现数据的毫秒检索;
熟练使用Zookeeper、Sqoop、Flume、Kafka、Azkaban等组件,掌握其安装部署以及运行原理;
熟练掌握 Spring、Springmvc、Mybatis、Hibernate等主流后台框架,了解 SpringBoot 和
SpringCloud;
熟练使用 Linux 基本命令,能够编写一些简单的shell、Python脚本;
了解ELK技术栈(Elasticsearch, Logstash, Kibana)框架工作机制,luence、solr等搜索引擎;
了解flink的工作机制;
了解Caffe、keras、Tensorflow 等深度学习框架,了解机器学习、深度学习的一些算法;
基于机器学习的假尿苷位点预测研究 (2016.02-2017.04)
项目简述:RNA序列在转录的过程中一些位点可能会被假尿苷化,形成假尿苷位点,该类位点在生物学和医学方面具有重要意义,因此怎样快速并准确的从序列中预测出假尿苷位点,是一项重要的研究。
在对于假尿苷预测方面,之前的方法是基于生物化学实验的方法,这样不仅成本高,周期也长;所以在本项研究中提出了基于机器学习的预测方法,我们先对序列进行截取,搭建卷积神经网络模型(CNN)进行序列特征提取,然后利用所提取的特征,在整条序列当中进行假尿苷位点的预测。随后为了更准确的预测该位点,又使用了更适合的极限学习机算法(ELM)模型。为了便于预测使用,利用算法作后台运算和java环境开发了两个假尿苷位点预测网站。
项目技术:JavaScript + SpringMVC + Spring + CNN/ELM
开发工具:MyEclipse + keras + tomcat
项目职责:1. 序列样本的整理、编码方式的创建;
2. 深度学习、极限学习机算法模型搭建、模型的训练和优化;
3. 训练和预测结果的评估,预测网站的开发;
4. 研究结果的分析,论文、软著、专利的编写和申请。
项目成果:发表两篇论文,软件著作权两项及发明型专利一项。
广西区环境监控系统 (2017.05-2018.02)
项目简述:对该省各企业污染物的排放实时监控,空气质量,污水,通过废弃污水的监控设备实时采集数据到kafka,通过sparkstreaming 直连kafka,首先对拉取过来的数据进行一次清洗,然后利sparkstreaming窗口函数对10分钟的数据统计分析,将处理后的数据保存在HDFS上,如果空气或者水质量不达标,就给领导和企业负责人发短信,邮件。除此之外还对不同维度进行数据统计,空气质量按日,月,年对各个市的数据平均值通过hive分析,通过设置定时任务,每天定时的执行脚本,废弃空气质量和污水质量,利用sqoop工具将分析统计的结果导入到MySQL中,生产报表,供前端展现。
技术选型:Kafka + Hadoop + zookeeper + Spark + hive + sqoop + mysql + echarts
工作职责:1. 开发sparkstreaming到kafka拉取数据做数据清洗;
2. sparkstreaming的窗口函数10分钟的数据统计分析;
3.开发对不达标的空气质量和水质量发邮件功能;
4. 对hdfs上产生的碎小文件数据,开启多线程对小文件进行实时合并;
5. 写定时脚本任务,通过建立hive表对数据进行分析统计;
6. 系统监控,主要是正对于集群中的硬件以及集群的节点的运行状体进行监控。
苏宁易购APP信息统计分析系统 (2018.03-2018.12)
项目简述:本项目是为了构建一个用户对APP使用情况的统计分析系统,分析出使用APP用户的各项指标以及APP版本分布情况,来了解用户对APP的依赖情况,全面衡量APP运营情况,为APP以后的改进和升级提供有力的参考依据,从而用户的体验,吸引更多的用户下载注册并使用APP方便的进行浏览消费。项目主要分为五个模块:数据采集、数据预处理、数据仓库、数据分析和数据可视化;
数据采集:kafka + flume
数据预处理:mapreduce、spark
数据存储:hdfs 、mysql
展示层:echarts
其他:sqoop、azkaban
技术选型:hadoop + kafka + flume + hive + spark + mysql + echarts + azkaban
工作职责:1. 数据预处理(数据清洗,日期格式整理,滤除不合法数据)mr代码的编写;
2. 定期采集日志,利用spark计算,进行ETL,将数据动态导入hive的分区表中;
3. 定期离线分析APP以及用户的各项指标:新增用户(每日、每周、每月)、活跃用户(每日、每周、每月)、沉默用户(两天内未使用的用户)、APP版本分布情况(各个版本日新增用户、活跃用户、启动次数)、本周回流用户(上周未使用,本周使用的用户)、忠诚用户、连续活跃用户、用户新鲜度、转化率等指标;
4. 将分析完成的指标数据导出到mysql数据库中,以提供给数据可视化展示;
5. 编写shell脚本,使用Azkaban定期将数据导入到hive表中,进行指标计算。
苏宁易购反爬虫系统 (2019.1-2019.10)
项目简述:商城除了普通用户浏览和下单外,还大量的爬虫在访问,为了消除爬虫对系统的影响,我们需要一套反爬虫的系统将爬虫识别出,并且屏蔽掉,减小对正常用户和硬件