技术能力:
精通大数据开发,以及其中的各个组件:
hadoop生态圈(hdfs,hbase等不举例了),
spark,
kylin,
key-value数据库(redis等),
kafka,
flume的二次开发,
cloudera的平台搭建、使用,
以及他们各个组件在cdh上的各种调优(开发简单调优难啊!)。
对flume的自定义开发,以及spark的生态圈在实际工作中用的比较多,所以也相对较为熟悉
项目经验:
我主要职责是开发公司的产品:大数据日志分析
所以说,我的项目经验都是围绕产品来的,
产品中包含:日志的采集,存储,计算(流式,离线),整个大数据这一块都由我一个人负责。
所以我下面举例某几个项目:
一、在有一个银行项目中,他们原先的ESB数据存于DB2(这家银行是IBM粉丝,组件能用IBM绝不用别的)数据量每天是在500G左右,他们把当天的数据全部抽取掉,如果要看以前的某一天还需要将数据倒到测试环境然后跑sql语句,十分麻烦,很缓慢。他们引入了公司的大数据日志分析平台,下面才是正题!!!!!!!!!!!我对flume开发了MQ(IBM的消息队列)的采集器,实时对mq的消息队列获取ESB数据,然后flume采集到kafka,spark-streaming对kafka做抓取,而后做解析,他们日志格式较为复杂xml 以及有request和response响应合并,将解析完的数据导入到kafka,而后用flume将数据落地,另一方面再使用streaming对kafka中的解析完数据进行数据的计算,比如esb响应时间,以及最近一分钟的交易类型的比重等,将计算完的数据回kafka,开发flume-sink 导入到mysql/redis,除此自外,我们用了hbase+solr二级索引的方式解决了,搜索+存储问题,项目太庞大三言两语说不完整,就写到这。
二、在大数据开发后,产品升级,引入机器学习模块,对数据做挖掘,主要是运维方面的动态基线,场景分析,磁盘空间预测,关联分析。
三、其实每个项目都已产品为核心进行升级开发和完善,项目数量5个,并且在不断增加
角色 | 职位 |
负责人 | 大数据日志监控研发工程师 |
队员 | 后端工程师 |