一、大数据:
1.熟悉hadoop、HDFS高可用的架构原理,并能独立搭建hadoop集群环境。
2.熟悉Spark的运行模式及流程,熟悉Spark的资源和任务调度流程。
3.熟练使用scala来编写spark程序,使用SparkStreaming和SparkSQL处理数据,Kafka+SparkStreaming实时消息处理。
4.掌握Spark程序的map端、reduce端调优。
5.掌握Storm的核心架构,了解Storm事务处理机制。
6.掌握hive的搭建、使用、调优。
7.熟悉Kafka的架构、消息生产消费机制和文件存储原理。
8.熟悉HBase、Flume、zookeeper架构、掌握Elasticsearch,CDH等技术。
二、机器学习
1.熟练掌握多元线性回归算法、逻辑回归算法,并对数据进行分类、预测。掌握多元线性回归解法。
2掌握对数据的特征提取。
3熟练使用spark mlib进行机器学习;
4.掌握聚类原理、k-means原理、求距离方法
5.掌握基于物品的协同过滤原理,了解神经网络。
6.掌握 python。
二、javaEE:
1.熟悉常用的数据结构和算法。
2.掌握Oracle,mysql数据库。
4.熟悉linux命令.
5.掌握html、jsp前端页面开发。
6.熟悉大型网站高并发架构和负载均衡原理。
项目一:用户画像 2017.03-2018.03
项目职务: 机器学习开发
项目描述: 为实现通过对用户提供的身份证和手机号评估用户风险。项目模块主要如下:1.数据获取。通过内置在各商户 APP 中的 SDK 获取用户的操作、手机软硬件、个人信息、运营商等数据,2.数据处理。通过阿里的 ODPS 或公司集群进行数据清洗、统计、存储等。3.规则制定。主要通过自身、关联数据表现及结果、欺诈规则等制定。
项目职责:
1.根据用户可能产生欺诈的通话、短信行为,提取用户一级、二级关联构建用户画像标签。2.通过阿里的 ODPS 对用户的通话、短信记录进行数据清洗、统计。3.通过阿里的 PAI 进行数据分析。4.部分数据通过在公司集群使用 SPARKSQL 处理后推Kafka。
项目架构: 阿里的 ODPS+PAI、SparkSQL+HDFS+Kafka