两年互联网行业工作经验,其中一年爬虫经验,有匡威,耐克,淘宝,知乎等网站的数据抓取经历。了解chrome和fiddler抓包,分布式爬虫scraoy-redis,逆向解析js,抓取ajax动态数据,beautifulsoup,selenium+phantomjs,ip代理池,验证码识别,文本分类等技术。
1.项目概况
通过对球鞋网站的实时数据抓取,数据分析过滤,给广大鞋友提供信息服务
2.我的职责
主要负责数据抓取,数据过滤,数据存库,消息推送,代理池使用与维护的代码实现和后期修改。
其中我使用了chrome浏览器的开发者工具进行网页数据结构分析,使用beautifulsoup进行数据抓取,使用了scrapy_redis分布式部署服务器提高爬取速率,使用了网上的ip代理服务保障访问的稳定性,使用redis实现数据的存储与使用。