参与过集群搭建及多个大数据项目有一定的数据结构基础,熟练掌握mysql数据库的使用、设计、优化开发,熟悉Oracle的使用。
熟练linux下shell编程
熟练使用java语言编程
熟练掌握hive调优,MR调优
熟悉hive、hbase、zookeeper、yarn、flume、sqoop等大数据生态圈软件
熟悉hbase rowkey的设计
熟悉hadoop集群搭建
熟练掌握MySQL数据库,能进行数据库的设计、开发及其优化,熟悉Oracle的使用;
了解python语言和R语言
了解Html,css,Javascript、jQuery等前端技术;
在工作中,使我养成了一些良好的学习习惯,让我更快的适应新的工作,并且自己工作主动,责任心、执行力及抗压性强,能够积极的面对并解决工作中的问题。
一.离线会员喜好推荐系统
1.使用sqoop工具将线上商城的mysql库中的交易记录表和线下的oracle库中的交易记录表数据导入到hdfs分布式文件系统中
2.用spark对原始数据做数据清洗,将清洗结果保存到hive表中方便以后分析
3.使用hive对数据进行用户精分:关联前端的oracle库与后端的mysql库中的商品交易记录表,统计不同区域和不同年龄段的用户的喜好商品类型,以此确定有针对性的营销方案
4.将用户访问记录表中的user_id与Ip地址提取出来组成临时表1并且将地址信息表中的Ip和location提取出来组成临时表2,将表1和表2很据ip相join得到user_id,location对应表3,之前用mapreduce实现join,现在为了减少时间用hive实现
5.根据购买记录表和生成的location对应表来对用户进行标签分类并产生分类表:年龄,地域,需求物品种类,从而在新款上线或者广告推销时针对标签来进行推荐
6. 编写shell脚本做Crontab定时执行分类表根据前一天的数据进行更新,每天更新一次
二.北京地铁智慧交通项目
1.根据现有数据利用hive sql生成乘客数据报表从卡账户层面实现不同时间维度下,路网、线路、车站各空间维度的卡出现频次集中时段、空间分布及流向的基础信息统计及多样化的展示,为轨道交通一卡通乘客出行规律深度分析提供数据支撑。
2.为hive分析做好数据准备:将TD库中数据导出并进行数据校对,对数据进行cut截取(数据前面会多两个字节单位),将处理好的数据上传到hdfs系统中对应于hive中的外部表,然后将外部表insert到内部的分区表,分区表以地铁运营日为分区。
3.利用tableau做前端的报表展现。
4.利用cloudera manager 的Oozie做定时任务来进行数据展现。
5.利用sqoop将数据从hive库导出到mysql中做报表展现(利用tableau连接sqoop速度快)
6.建立乘客画像给乘客打标签(进京游客,常旅客,差旅人员,上班族,灰色人群,有无私家车.....等等)
三.湘雅医院医疗大数据项目(湘雅百度项目)
1.HDFS侧存储设计,通过功能来进行目录结构设计,特定的目录保存特定的东西内容。
2.利用java实现html病历文件的内容提取并将其转换成json串(目的是为了提取每个病人的有效信息:入院记 录,人口学信息,首次病程记录,出院记录等等..)
3.利用mapreduce编写分词器,并建立停词库
4.编写代码生成测试数据测试solr的服务器性能。