ID:233231

L

中级大数据开发工程师

  • 公司信息:
  • 广州医博
  • 工作经验:
  • 3年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 所在区域:
  • 其他
  • 全区

技术能力

• 数据采集:Flume框架:常用agent逻辑的搭建,配置source、channel、sink,完成数据采集; Logstash工具:适合采集日志的场景,过滤功能比较强大;
• 数据存储:Hadoop框架hdfs文件系统:理解hdfs分布式文件系统存储结构和高可用原理; Kafka消息系统:掌握kafka消息缓存系统,熟练使用kafka进行数据的生产和消费; HBase:理解HBase的存储原理和存储结构; Mysql关系数据库:熟练使用mysql;
• 数据处理:Mapreduce:熟悉mapreduce计算框架,对yarn的资源调度有一定认识; Storm:熟悉storm实时数据处理框架的原理; Spark:了解spark运行机制,能运用scala进行简单的spark编程;
• 数据应用:Hive:能够运用hive数据仓库工具,对日志数据进行查询、统计等数据操作;
• 其他工具:Zookeeper:熟悉ZK工作原理,能够使用ZK监控集群节点;sqoop:会使用sqoop进行数据迁移;impala数据查询,kylin数据库简单使用,streamsets数据迁移。

项目经验

1.软件环境:flume+zookeeper+kafka+spark+mysql+hadoop
硬件环境:华为云
开发工具: IntelliJ IDEA工具
业务描述:1:使用flume周期性收集日志,分别采集数据到kafka,hdfs。2:调用“点都”接口(识别车牌),调用百度车辆识别接口(识别车型),与车辆信息库交互,进入判断库进行判断(判断符合的进站车辆的营销活动)3:使用SparkStreaming进行业务的实时计算分析,包括场站车辆的“进站”,“出站”“销售额”等等4:使用SparkSql进行离线计算,统计每个场站每周,每月,每个季度的加油车辆,销售额,新增油卡用户。5.使用爬虫爬取每家厂商最新价格,竞争对手的舆情信息。
项目职责:flume数据抽取,SparkStreaming实时处理SparkSql离线处理
2.python脚本定时抽取邮件,
加工数据到oracle表中,根据口径标准,使用oralce语句剔除数据
加工成报表,后期直接从离线库抽取数据到
hive表中,使用hql进行报表加工分析。
3.软件环境:elasticsearch5.0.1+jdk1.8+jieba/达观
硬件环境:4台8核、64G内存、2T ssd硬盘加1台8核16G的阿里云服务器
其中一台作为kibana+kafka连接查询的服务器
其他6台都作为node和master两种角色
操作系统:centos7.2 x86_64
业务描述:
将文本数据放入hbase中,利用达观分词系统进行语意分析,将分析结果放入oracle中,进行保存。
主要负责:集群的搭建,建立hbase表,抽取数据到hbase中

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服