编程语言:shell、java、scala、python。
有ansible自动化部署开发经验
熟练使用shell并能够独自开发hadoop集群一键安装
熟练使用Linux命令:expect自动交互、多机远程操作、文本操作工具
熟悉原生Hadoop平台二次开发
熟悉使用SQL语言,熟悉MySQL数据库
熟悉HDFS、MapReduce、YARN、Hive、Hbase、Zookeeper、Kafka等Hadoop生态圈相关组件
熟练使用MapReduce、Spark计算框架编程
熟练运用 Hive 数据仓库工具,对数据进行查询与统计等数据操作;
熟悉HBase数据库的使用,理解HBase的存储原理和存储架构
N多市场日志ETL系统
项目描述:获取用户半个月安装软件中埋点产生的日志,进行切割,从中获取有效的日志数据存入Mysql中或者转化为AVRO文件
项目职责:使用Map Reduce将日志中有用数据提取出来,实现DBWritable写入MySQL数据库中
分布式Python爬虫
项目描述:主要采用Python脚本来解析url和获取从url中解析的html,通过生产者消费者的模式实现高并发、多线程、分布式的爬取数据,最终实现多机多线程。将上传到HDFS上,以便后续项目进行数据使用
项目职责:实现从网页中下载数据并存入mysql中
大数据平台开发
项目描述:针对公司给客户搭建大数据平台时耗时耗力,并且平台运维成本较高。所以开发能够一键搭建以及一键运维并融入能够监控集群等特性的大数据集群平台。减少了实施人员搭建大数据平台的时间成本以及运维人员的运维成本。
项目职责:研究集群监控软件nagios并开发安装脚本、修改每个版本安装脚本出现的bug、开发自动化集群升级脚本、测试优化集群各组件性能、解决生产环境出现的问题