熟练python,
熟悉requests、scrapy框架爬虫技术、熟悉scrapy中间件
熟悉多进程/线程爬虫技术
熟悉各种反爬机制、包括不限于字体反爬,CCS样式和JS反爬、
熟悉前端AJAX技术
有过工商信息、政府网站、招聘网站以及各大电商网站
百万级数据爬取经验
爬取电商网站,比如淘宝,京东,亚马逊。美团
爬取过国内知名的旅游网站,如途牛,携程,爬取票务,酒店等信息
曾经开发完整的分布式爬虫系统。
只要不违法 指哪爬哪
该项目是公司内部用于实现店铺选款以及提供数据分析的数据支持,实现每天上午十点自动更新所需数据,目前竞品店铺共750余家,商品数据在100W-200W左右,商品数据按新品每日迭代更新,推广部可自行增加竞店首页信息,在1-5分钟之后即可更新单个店铺最新数据,同时可查看竞店预售商品款式
该项目是公司内部用于实现店铺选款以及提供数据分析的数据支持,实现每天上午十点自动更新所需数据,目前竞品店铺共750余家,商品数据在100W-200W左右,商品数据按新品每日迭代更新,推广部可自行增加竞店首页信息,在1-5分钟之后即可更新单个店铺最新数据,同时可查看竞店预售商品款式
该项目是公司内部用于实现店铺选款以及提供数据分析的数据支持,实现每天上午十点自动更新所需数据,目前竞品店铺共750余家,商品数据在100W-200W左右,商品数据按新品每日迭代更新,推广部可自行增加竞店首页信息,在1-5分钟之后即可更新单个店铺最新数据,同时可查看竞店预售商品款式
该项目是公司内部用于实现店铺选款以及提供数据分析的数据支持,实现每天上午十点自动更新所需数据,目前竞品店铺共750余家,商品数据在100W-200W左右,商品数据按新品每日迭代更新,推广部可自行增加竞店首页信息,在1-5分钟之后即可更新单个店铺最新数据,同时可查看竞店预售商品款式