ID:126516

葛成浩

高级大数据开发工程师

  • 公司信息:
  • 上海秒针网络科技有限公司
  • 工作经验:
  • 5年
  • 兼职日薪:
  • 1000元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 可工作日远程
  • 所在区域:
  • 上海
  • 全区

技术能力

1.熟练掌握Java,多线程编程及常用框架,从大学起开始使用Java,工作后的主要编程语言仍然是Java
2.熟练使用Redis,memcached缓存
3.熟练使用Kafka,日常工作中通过Kafka作为数据的传输工具,实现服务间的解耦
4.熟练使用Linux,掌握常用命令,熟练编写shell脚本
5.了解python和scala,对于需要快速且简单的任务常用python脚本快速输出结果
6.熟练掌握hadoop生态圈,包括hadoop/hbase/spark/storm/hive,可以在linux独自完成这些组件的安装,目前公司中的这些组件由我搭建完成的,并在后续持续维护组件的运行,能够编写mr任务,spark任务
7.熟练掌握elasticsearch,单独搭建elasticsearch集群,并优化索引,优化查询语句

项目经验

一.分布式网络爬虫
1.支持分布式,多线程,及时性高,防屏蔽,多媒体类型的数据采集系统
2.可通过配置添加新网站的数据采集
3.可根据每个网站配置网站的防屏蔽抓取时间
4.采集媒体类型包括微博/微信/论坛/新闻/博客/视频/电商
5.支持搜索引擎数据采集,可根据关键词及搜索引擎支持的语法规则(如inurl:/site:)/时间范围/排序方式采集数据 6.爬虫集群管理多台阿里云爬虫
7.建立爬虫预警监测体系,统计每日网站数据量,网站Delay任务预警,网站改版预警,自动生成账号预警
8.系统分为以下几个模块,
a. OperationService 1. 刷新抓取信息至Redis 2. 提供WebService接口 3. 发送预警邮件 4. 爬虫运维前端页面
b. TaskService 1. 刷新下次运行时间在当前时间之前的任务至任务表 2. 根据爬虫资源/网站的屏蔽时间计算周期时间(5分钟)内,每个网站可执行的任务数,并刷新任务至Redis 3. 根据云爬虫使用情况(如云爬虫的最大并发量/网站任务屏蔽时间等),把云爬虫资源和抓取任务绑定并刷新至Redis
c. ControlService 1. 执行抓取任务,请求TaskService返回抓取任务 2. 请求SpiderService,抓取网页源码 3. 请求ParseService,解析网页信息 4. 把url加密存储至memcached去重,便于计算新数据的量 5. 计算新数据阈值,生成翻页任务/详情页任务等 6. 发送数据至kafka消息队列
d. ParseService 1. 通过正则表达表解析网页内容 2. 通过DOM树解析网页内容 3. 解析json格式数据 4. 自动解析新闻/博客等媒体详情页新闻正文信息
e. SpiderService 1. 管理不同类型爬虫,抓取不同网站,方便扩展其他爬虫

二.基于Spark关键词命中提及计算
根据用户选择的条件(网站,任务等条件)和HBase的Rowkey设计原则拆分从HBase中取数据的任务,合并从HBase中取出的数据,通过coalesce函数重新分区,分区数=集群CPU核数*(2或者3),计算关键词的命中次数,计算关键词的命中次数使用KMP算法,最终把计算结果存储到Mysql

三.Hadoop/HBase研究及应用
1.搭建Hadoop/HBase集群,安装HBase的snappy压缩算法
2.Hadoop/HBase研究,根据现有业务做性能测试,性能调优
3.将数据中心数据存储至HBase,历史数据迁移至HBase
4.编写MapReduce程序计算数据(从HBase获取)和关键词的匹配关系
5.编写MapReduce程序导出HBase数据
6.主要负责一下模块的开发:
一.StoreService
1.从kafka消息队列获取数据存储至HBase,Rowkey设计网站ID_文章发布时间_文章编号
2.根据文章发布时间/网站/板块/任务编号从HBase导出数据,编写MapReduce程序根据网站/任务编号切分Map任务,每个map任务查询HBase先返回Rowkey及做filter的字段,然后再通过Rowkey获取文章详情作为输出,最终导出成csv文件
二.TMService
1.根据文章发布时间/网站/板块/任务编号/Tree节点关键词从HBase查询数据并和Tree节点关键词做数据匹配,输出关键词的提及文章及提及次数,编写MapReduce程序根据网站/任务编号切分任务,每个map任务查询HBase数据跟关键词做匹配,最终输出csv文件

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服