(1)熟练掌握hadoop完全分布式集群的搭建;
(2)熟悉mapReduce、HDFS、YARN的原理,熟悉分布式计算模型;
(3)熟悉shell脚本的编写
(4)熟悉hive、sqoop、hbase、zookeeper等开源项目
(5)熟练掌握cloudera组件的搭建与配置
(6)熟练掌握scala语言,具有扎实的编程基础和良好的编程习惯以及代码规范
(7)具备spark项目的性能调优能力
(8)熟练掌握spark streaming 、 spark批量计算等API使用
(一) 用户驾驶行为信用评级项目
技术架构:spark+hdfs+Yarn+Oozie+Sqoop+Parquet+mysql
技术描述:(1)读取hdfs上parquet格式的原始数据;(2)对原始数据进行spark批量计算操作;(3)spark-submit提交程序,上线生产环境;(4)使用sqoop将程序计算结果导入mysql数据库;(5)使用oozie对项目的程序模块进行调度
(二)UBI车险实时计算项目
技术架构:spark streaming + kafka + cassandra + redis + jmeter+ scala mock
技术描述:(1)spark streaming 消费kafka数据;(2)redis缓存里程保费定价数据;(3)cassandra存储结果数据;(4)jmeter模拟程序10万并发,对程序做压力测试;(5)scala mock作为项目的测试用例框架
(三)视频大数据项目
技术架构:华为fusioninsight大数据平台 + spark + hbase
技术描述: (1)搭建华为fusioninsight大数据平台;(2)spark批量计算技战法模型;(3)hbase存储技战法模型结果
(四)大规模人脸聚类项目
技术架构:faiss + spring cloud + docker + cuda
技术描述: (1)faiss加速人脸聚类向量在gpu中的计算;(2)spring cloud 微服务扩容、扩并发管理算力;(3)docker部署服务
随着安防数据的增加,在各种视频、图像中进行检索成为越来越重要的问题,这其中基于特征的相似度检索应用最为广泛,例如,人脸检索、车辆检索、人体检索以及基于这些检索的大数据应用:轨迹检索、聚类、同行分析等。 k近邻搜索(k-NNS)是对图像特征检索的一个最好描述,即在数据库中查找
UBI车险项目属于车联网生态圈中的一环,它通过收集用户驾驶汽车时产生的高低频数据,即速度、加速度、里程数、急转弯数等数据,在系统后台对数据进行建模分析,评价出用户的驾驶行为,同时根据用户的驾驶行为,对车主缴纳的车险进行动态计费。国外有几家公司成功的实践了UBI车险,其中,Prog