掌握Java、python平台技术,熟悉分布式框架springcloud、dubbo等
掌握http协议以及前端js框架jQuery、react等
掌握开源框架Selenium、webmagic、Scrapy等
掌握数据库mysql、mongodb、hbase等
掌握Elastic Search 技术
熟悉爬虫相关技术细节以及反爬手段
爬取过国内外很多的电商网站,国内top10电商,如淘宝、天猫、京东、苏宁、国美、唯品等,主要采集商品信息、订单信息
国外如亚马逊全球网站,欧美大量电商网站,主要采集商品信息做海淘使用,实时下订单,后台订单、物流信息的采集等。
爬取过国内知名的网站:
1)如携程,途牛,采集票务以及酒店信息
2)美团、饿了么,采集店铺等其他信息
开发过完整的分布式爬虫框架,有自己专门的爬虫团队来做兼职,并且目前有人能够全职处理
角色 | 职位 |
负责人 | 高级数据工程师 |
队员 | 后端工程师 |
系统采用java平台编写,以postgresql为存储源,采用多线程协调控制,主从结构模式; 主节点集中式存储metadata,调度、显示整个系统的运行状况,主要包括爬虫监控、周期性任务调度作业启动、DB维护、资源清理等Daemon线程; 爬虫节点执行具体的爬虫任务,主要包括心跳
主要负责数据采集系统和比价系统开发与设计,系统主要采用springboot+dubbo+mysql+mongo架构,主要采集国内top电商平台商品价格数据、优惠券数据、图片数据,为文本比价和图片比价提供数据支撑。