能熟练使用 Python 、Scala语言,了解java语言,熟悉常见linux命令。
2. 熟悉数据挖掘算法,包括机器学习和深度学习算法、推荐算法;熟悉数据分析整个建模过
程,尤其是结合业务数学建模有丰富经验。
3. 熟悉大数据仓库建模理论,能熟悉使用Hadoop生态圈工具,具体包括能熟练使用
Hive/sql、Hbase、Spark, 了解Sqoop、Flume、Kafka工具。
4. 能熟练使用python数据分析的库,包括Pandas、Sklearn、TensorFlow。能熟练使
用scala语言进行spark sql开发。
5. 了解python爬虫,了解常见反爬机制以及应对策略(如 ip 池、cookie 池调度,js 加密
等)。
7.了解 python 语言 web 后端开发 django、flask 网络框架;了解 web 前端 js、jquer
大量小文件存储系统
软件环境及工具:centos7+hdfs+hbase+phoenix
项目时间:2020.11 到 2021.1
项目描述:
要解决上百个T的图片、小文件存放问题,解决客户端响应过慢的问题。
项目职责:
(1)线上hdfs高可用ha搭建,hbase+phoenix搭建,进行抗压测试。
(2)平台稳定性维护
(3)对客户端接口的封装,供web组调用
项目效果:
平台稳定性较好,速度及高并发能力满足要求
项目 2 :医药上市预测项目
软件环境及工具:python+pandas+Sklearn
项目时间:2021.3 到 2021.5
项目描述:
基于历史药物上市情况数据,预测在研药物上市成功率。具体模型计算流程涉及公
司商业机密,可以面试谈。
项目职责:
(1)需求交流,模型设计。
(2)模型的实现、验证。
(3)项目交接及调优
项目效果:
模型结果初步得到认可,具体效果还在验证阶段
根据学生的历史成绩,上网数据、消费数据、上课数据、生源地等特征,采用朴素贝叶斯、协同过滤、前馈神经网络等算法,预测本次学生的期末的成绩,达到一个预警提示
大数平台主要为生物公司服务,平台负责生物公司旗下全国各地采浆 站、生物公司的业务管理、风险监控。平台主要职能就是做采浆站业务数据的集成 统计与查询,监控浆站与生物公司、生物公司之间的血源调拨信息,监控各个采浆 站采浆流程的安全风险,同时为浆站及生物公司提供数据分析,更好的拓