猿急送>

上海其它兼职程序员

ID：123429

Rico Chen 有团队

大数据日志监控研发工程师

公司信息：
上海派拉软件股份有限公司

工作经验：
3年

兼职日薪：
500元/8小时

兼职时间：
下班后
周六
周日

所在区域：
上海
全区

技术能力

技术能力：
精通大数据开发，以及其中的各个组件：
hadoop生态圈(hdfs,hbase等不举例了),
spark,
kylin,
key-value数据库(redis等)，
kafka，
flume的二次开发，
cloudera的平台搭建、使用，
以及他们各个组件在cdh上的各种调优（开发简单调优难啊！）。
对flume的自定义开发，以及spark的生态圈在实际工作中用的比较多，所以也相对较为熟悉

项目经验

项目经验：
我主要职责是开发公司的产品：大数据日志分析
所以说，我的项目经验都是围绕产品来的，
产品中包含：日志的采集，存储，计算（流式，离线），整个大数据这一块都由我一个人负责。
所以我下面举例某几个项目：
一、在有一个银行项目中，他们原先的ESB数据存于DB2(这家银行是IBM粉丝，组件能用IBM绝不用别的)数据量每天是在500G左右，他们把当天的数据全部抽取掉，如果要看以前的某一天还需要将数据倒到测试环境然后跑sql语句，十分麻烦，很缓慢。他们引入了公司的大数据日志分析平台，下面才是正题！！！！！！！！！！！我对flume开发了MQ(IBM的消息队列)的采集器，实时对mq的消息队列获取ESB数据，然后flume采集到kafka，spark-streaming对kafka做抓取，而后做解析，他们日志格式较为复杂xml 以及有request和response响应合并，将解析完的数据导入到kafka，而后用flume将数据落地，另一方面再使用streaming对kafka中的解析完数据进行数据的计算，比如esb响应时间，以及最近一分钟的交易类型的比重等，将计算完的数据回kafka，开发flume-sink 导入到mysql/redis，除此自外，我们用了hbase+solr二级索引的方式解决了，搜索+存储问题，项目太庞大三言两语说不完整，就写到这。
二、在大数据开发后，产品升级，引入机器学习模块，对数据做挖掘，主要是运维方面的动态基线，场景分析，磁盘空间预测，关联分析。
三、其实每个项目都已产品为核心进行升级开发和完善，项目数量5个，并且在不断增加