猿急送>

北京前端兼职程序员

ID：141963

初见

大数据研发工程师

公司信息：
睿志大数据有限公司

工作经验：
3年

兼职日薪：
500元/8小时

兼职时间：
下班后
周六
周日
可工作日远程

所在区域：
北京
海淀

技术能力

参与过集群搭建及多个大数据项目有一定的数据结构基础，熟练掌握mysql数据库的使用、设计、优化开发，熟悉Oracle的使用。
熟练linux下shell编程
熟练使用java语言编程
熟练掌握hive调优，MR调优
熟悉hive、hbase、zookeeper、yarn、flume、sqoop等大数据生态圈软件
熟悉hbase rowkey的设计
熟悉hadoop集群搭建
熟练掌握MySQL数据库，能进行数据库的设计、开发及其优化，熟悉Oracle的使用；
了解python语言和R语言
了解Html,css,Javascript、jQuery等前端技术;
在工作中，使我养成了一些良好的学习习惯，让我更快的适应新的工作，并且自己工作主动，责任心、执行力及抗压性强，能够积极的面对并解决工作中的问题。

项目经验

一.离线会员喜好推荐系统
1.使用sqoop工具将线上商城的mysql库中的交易记录表和线下的oracle库中的交易记录表数据导入到hdfs分布式文件系统中
2.用spark对原始数据做数据清洗，将清洗结果保存到hive表中方便以后分析
3.使用hive对数据进行用户精分：关联前端的oracle库与后端的mysql库中的商品交易记录表，统计不同区域和不同年龄段的用户的喜好商品类型，以此确定有针对性的营销方案
4.将用户访问记录表中的user_id与Ip地址提取出来组成临时表1并且将地址信息表中的Ip和location提取出来组成临时表2，将表1和表2很据ip相join得到user_id，location对应表3，之前用mapreduce实现join，现在为了减少时间用hive实现
5.根据购买记录表和生成的location对应表来对用户进行标签分类并产生分类表：年龄，地域，需求物品种类，从而在新款上线或者广告推销时针对标签来进行推荐
6. 编写shell脚本做Crontab定时执行分类表根据前一天的数据进行更新，每天更新一次
二.北京地铁智慧交通项目
1.根据现有数据利用hive sql生成乘客数据报表从卡账户层面实现不同时间维度下，路网、线路、车站各空间维度的卡出现频次集中时段、空间分布及流向的基础信息统计及多样化的展示，为轨道交通一卡通乘客出行规律深度分析提供数据支撑。
2.为hive分析做好数据准备:将TD库中数据导出并进行数据校对，对数据进行cut截取(数据前面会多两个字节单位)，将处理好的数据上传到hdfs系统中对应于hive中的外部表，然后将外部表insert到内部的分区表，分区表以地铁运营日为分区。
3.利用tableau做前端的报表展现。
4.利用cloudera manager 的Oozie做定时任务来进行数据展现。
5.利用sqoop将数据从hive库导出到mysql中做报表展现(利用tableau连接sqoop速度快)
6.建立乘客画像给乘客打标签(进京游客，常旅客，差旅人员，上班族，灰色人群，有无私家车.....等等)
三.湘雅医院医疗大数据项目(湘雅百度项目)
1.HDFS侧存储设计，通过功能来进行目录结构设计，特定的目录保存特定的东西内容。
2.利用java实现html病历文件的内容提取并将其转换成json串(目的是为了提取每个病人的有效信息：入院记录，人口学信息,首次病程记录，出院记录等等..)
3.利用mapreduce编写分词器，并建立停词库
4.编写代码生成测试数据测试solr的服务器性能。