猿急送>

上海后端兼职程序员

ID：191525

奋斗的小明

软件、大数据、算法开发工程师

公司信息：
苏宁

工作经验：
3年

兼职日薪：
700元/8小时

兼职时间：
下班后
周六
周日

所在区域：
上海
浦东

技术能力

 熟练使用Java，Scala语言编程，了解python，C/C++，matlab；
 熟悉Hadoop的分布式文件系统相关组件的原理，掌握Mapreduce原理和执行流程，实现编码；
 熟悉 SparkRDD、SparkSQL、SparkStreaming开发；
 熟悉Hive的工作原理，了解数据仓库建立，完成对数据主题抽取和多维分析；
 熟练使用mysql关系型数据库进行数据的CRUD操作；
 熟悉impala、kudu等存储引擎的原理，并熟练使用；
 理解HBase的存储原理及架构，掌握行键的设计原则以及HBase的调优，实现数据的毫秒检索；
 熟练使用Zookeeper、Sqoop、Flume、Kafka、Azkaban等组件，掌握其安装部署以及运行原理；
 熟练掌握 Spring、Springmvc、Mybatis、Hibernate等主流后台框架，了解 SpringBoot 和
SpringCloud；
 熟练使用 Linux 基本命令，能够编写一些简单的shell、Python脚本；
 了解ELK技术栈(Elasticsearch, Logstash, Kibana)框架工作机制，luence、solr等搜索引擎；
 了解flink的工作机制；
 了解Caffe、keras、Tensorflow 等深度学习框架，了解机器学习、深度学习的一些算法；

项目经验

基于机器学习的假尿苷位点预测研究（2016.02-2017.04）
项目简述：RNA序列在转录的过程中一些位点可能会被假尿苷化，形成假尿苷位点，该类位点在生物学和医学方面具有重要意义，因此怎样快速并准确的从序列中预测出假尿苷位点，是一项重要的研究。
在对于假尿苷预测方面，之前的方法是基于生物化学实验的方法，这样不仅成本高，周期也长；所以在本项研究中提出了基于机器学习的预测方法，我们先对序列进行截取，搭建卷积神经网络模型（CNN）进行序列特征提取，然后利用所提取的特征，在整条序列当中进行假尿苷位点的预测。随后为了更准确的预测该位点，又使用了更适合的极限学习机算法（ELM）模型。为了便于预测使用，利用算法作后台运算和java环境开发了两个假尿苷位点预测网站。
项目技术：JavaScript + SpringMVC + Spring + CNN/ELM
开发工具：MyEclipse + keras + tomcat
项目职责：1. 序列样本的整理、编码方式的创建；
2. 深度学习、极限学习机算法模型搭建、模型的训练和优化；
3. 训练和预测结果的评估，预测网站的开发；
4. 研究结果的分析，论文、软著、专利的编写和申请。
项目成果：发表两篇论文，软件著作权两项及发明型专利一项。

广西区环境监控系统（2017.05-2018.02）
项目简述：对该省各企业污染物的排放实时监控，空气质量，污水，通过废弃污水的监控设备实时采集数据到kafka,通过sparkstreaming 直连kafka,首先对拉取过来的数据进行一次清洗，然后利sparkstreaming窗口函数对10分钟的数据统计分析，将处理后的数据保存在HDFS上，如果空气或者水质量不达标，就给领导和企业负责人发短信，邮件。除此之外还对不同维度进行数据统计，空气质量按日，月，年对各个市的数据平均值通过hive分析，通过设置定时任务，每天定时的执行脚本，废弃空气质量和污水质量，利用sqoop工具将分析统计的结果导入到MySQL中，生产报表，供前端展现。
技术选型：Kafka + Hadoop + zookeeper + Spark + hive + sqoop + mysql + echarts
工作职责：1. 开发sparkstreaming到kafka拉取数据做数据清洗；
2. sparkstreaming的窗口函数10分钟的数据统计分析；
3．开发对不达标的空气质量和水质量发邮件功能；
4. 对hdfs上产生的碎小文件数据，开启多线程对小文件进行实时合并；
5. 写定时脚本任务，通过建立hive表对数据进行分析统计；
6. 系统监控，主要是正对于集群中的硬件以及集群的节点的运行状体进行监控。

苏宁易购APP信息统计分析系统（2018.03-2018.12）
项目简述：本项目是为了构建一个用户对APP使用情况的统计分析系统，分析出使用APP用户的各项指标以及APP版本分布情况，来了解用户对APP的依赖情况，全面衡量APP运营情况，为APP以后的改进和升级提供有力的参考依据，从而用户的体验，吸引更多的用户下载注册并使用APP方便的进行浏览消费。项目主要分为五个模块：数据采集、数据预处理、数据仓库、数据分析和数据可视化；
数据采集：kafka + flume
数据预处理：mapreduce、spark
数据存储：hdfs 、mysql
展示层：echarts
其他：sqoop、azkaban
技术选型：hadoop + kafka + flume + hive + spark + mysql + echarts + azkaban
工作职责：1. 数据预处理（数据清洗，日期格式整理，滤除不合法数据）mr代码的编写；
2. 定期采集日志，利用spark计算，进行ETL，将数据动态导入hive的分区表中；
3. 定期离线分析APP以及用户的各项指标：新增用户（每日、每周、每月）、活跃用户（每日、每周、每月）、沉默用户（两天内未使用的用户）、APP版本分布情况（各个版本日新增用户、活跃用户、启动次数）、本周回流用户（上周未使用，本周使用的用户）、忠诚用户、连续活跃用户、用户新鲜度、转化率等指标；
4. 将分析完成的指标数据导出到mysql数据库中，以提供给数据可视化展示；
5. 编写shell脚本，使用Azkaban定期将数据导入到hive表中，进行指标计算。

苏宁易购反爬虫系统（2019.1-2019.10）
项目简述：商城除了普通用户浏览和下单外，还大量的爬虫在访问，为了消除爬虫对系统的影响，我们需要一套反爬虫的系统将爬虫识别出，并且屏蔽掉，减小对正常用户和硬件