猿急送>

其他后端兼职程序员

ID：233231

L

中级大数据开发工程师

公司信息：
广州医博

工作经验：
3年

兼职日薪：
500元/8小时

兼职时间：
下班后
周六
周日

所在区域：
其他
全区

技术能力

• 数据采集：Flume框架：常用agent逻辑的搭建，配置source、channel、sink，完成数据采集； Logstash工具：适合采集日志的场景，过滤功能比较强大；
• 数据存储：Hadoop框架hdfs文件系统：理解hdfs分布式文件系统存储结构和高可用原理; Kafka消息系统：掌握kafka消息缓存系统，熟练使用kafka进行数据的生产和消费； HBase：理解HBase的存储原理和存储结构； Mysql关系数据库：熟练使用mysql；
• 数据处理：Mapreduce：熟悉mapreduce计算框架，对yarn的资源调度有一定认识； Storm：熟悉storm实时数据处理框架的原理； Spark：了解spark运行机制，能运用scala进行简单的spark编程；
• 数据应用：Hive：能够运用hive数据仓库工具，对日志数据进行查询、统计等数据操作；
• 其他工具：Zookeeper：熟悉ZK工作原理，能够使用ZK监控集群节点；sqoop：会使用sqoop进行数据迁移；impala数据查询，kylin数据库简单使用，streamsets数据迁移。

项目经验

1.软件环境：flume+zookeeper+kafka+spark+mysql+hadoop
硬件环境：华为云
开发工具： IntelliJ IDEA工具
业务描述：1：使用flume周期性收集日志，分别采集数据到kafka，hdfs。2：调用“点都”接口（识别车牌），调用百度车辆识别接口（识别车型），与车辆信息库交互，进入判断库进行判断（判断符合的进站车辆的营销活动）3：使用SparkStreaming进行业务的实时计算分析，包括场站车辆的“进站”，“出站”“销售额”等等4：使用SparkSql进行离线计算，统计每个场站每周，每月，每个季度的加油车辆，销售额，新增油卡用户。5.使用爬虫爬取每家厂商最新价格，竞争对手的舆情信息。
项目职责：flume数据抽取，SparkStreaming实时处理SparkSql离线处理
2.python脚本定时抽取邮件，
加工数据到oracle表中，根据口径标准，使用oralce语句剔除数据
加工成报表，后期直接从离线库抽取数据到
hive表中，使用hql进行报表加工分析。
3.软件环境：elasticsearch5.0.1+jdk1.8+jieba/达观
硬件环境：4台8核、64G内存、2T ssd硬盘加1台8核16G的阿里云服务器
其中一台作为kibana+kafka连接查询的服务器
其他6台都作为node和master两种角色
操作系统：centos7.2 x86_64
业务描述：
将文本数据放入hbase中，利用达观分词系统进行语意分析，将分析结果放入oracle中，进行保存。
主要负责：集群的搭建，建立hbase表，抽取数据到hbase中