1. 精通Python语言,熟练掌握正则表达式、Xpath、CSS等网页信息抽取技术;
2. 熟悉常用的库requests/parsel/json/csv/gevent等;
3. 熟悉异步并发爬虫,多线程,多进程以及协程爬虫
4. 熟练掌握主流爬虫框架scrapy;
5. 熟悉常见反爬机制,如headers和cookie认证,以及验证码和各种滑动验证识别,有自建IP代理池并应用IP代理池进行伪装爬取信息;
6. 熟练掌握应用Selenium实施动态抓取;
7. 熟悉使用fiddler抓包工具;
8. 熟悉mysql、mongodb、redis数据库
9.了解各种加密算法,对解决js加密反爬和字体反爬也有一定应对经验
足球赛事数据获取
项目描述:
1.对历年及最新的球赛数据进行抓取。
2.分析目标站点,确定采用抓取的方式,优化抓取流程。
3.分析反爬机制,采取合适的反反爬方式。
责任描述:
1.分析网页的结构,决定采用接口爬虫。
2.分析每个国球球赛数据公布的url的差异,构建正确的Request请求。
3.使用xpath、re、css解析网页的数据。
4.在Scrapy Downloader Middleware 中配置随机的User-Agent、代理IP。
5.使用Pipeline 将数据存储到mysql、csv、json等。
6.在settings中配置失败重启次数、超时时间以及启动下载中间件与pipeline。