大数据: 熟悉整个大数据平台的处理和大规模分布式集群0到1环境搭建,熟悉分布式计算平台的核心问题。了解Hadoop大数据相关生态系统,有Hadoop集群构建和优化能力,了解yarn工作原理。了解,hbase,hive,kafka,zookeeper zkClient客户端使用。有ElasticSearch 集群构建优化和插件安装,hive结合ElasticSearch。Impala.。有Spark集群构建和优化能力,了解Spark工作原理,Spark SQL, Spark on Yarn运行模式,能熟练构建Cloudera CDH, Ambari平台.了解PB级别规模对象存储服务,以及纠删码数据恢复方式,了解S3协议,hadoop基于S3协议的存储服务。基于MinIO实现的S3协议的存算分离大数据部署形式
AI算法::理解机器学习和深度学习相关算法和原理。了解Sklean,XGBoost,Pytorch,Keras,Numpy,Pandas相关框架。了解线性回归,逻辑回归,决策树,朴素贝叶斯,PCA降维度,皮尔逊相关系数,理解神经网络的正向传播及反向传播,了解CNN,RNN. LSTM长短记忆神经网络(GPU模式运行神经网络),了解基于大数据Spark的分布式神经网络DL4J框架,了解分布式神经网络运行原理,数据分布式,模型分布式,参数平均,梯度共享。了解基于GPU构建的Spark集群分布式神经网络。神经网络梯度优化动量,ROC曲线。
公司名称:深圳市捷誊技术有限公司(2020.7-至今)
工作内容:实现大数据与AWS-S3整合,调研minio,并测试
项目名称:湖南益阳政务大数据
工作内容:基于华为FusionInsight大数据平台,使用sprak完成两部分工作,1.spark解决web系统的业务数据计算,例如对于车牌的违章数据进行业务计算,并关联公务员花名册,房产数据业务计算,法人数据业务计算。2.财务数据按照月份进行统计,构建回归分析,基于LSTM对财务数据进行回归分析预测,并可视化展示
使用技术:spark,hive,hadoop,ES,plotly, Mysql
项目名称:湖南长沙纪委,互联网+监督项目
工作内容:构建大数据平台,并导入残疾人,个体户,并对省,市,区,县,发放资金核对相关业务 基于大数据平台spark+hive 进行业务处理
使用技术:Hadoop,HDFS,Hive,spark,ES,Mysql