熟练掌握python的基本语法,对面向对象思想有一定的了解,
掌握常见的爬虫、反爬虫知识及应对措施,
熟练使用python lxml、BeautifulSoup、re、json模块进行数据提取,
熟悉Xpath语法规则和各CSS、Selector的使用,
掌握scrapy框架、以及编写各类中间件,
英语四级,具有一定的英文文档阅读能力和翻译能力。
-百度云盘爬虫。
-社交数据爬虫。支持微博,知乎,豆瓣。
-Python爬虫代理IP池(proxy pool)。
-爬取慕课网视频。
-中国知网爬虫。
-动态IP解决新浪的反爬虫机制,快速抓取内容。
-爬取CSDN上的博客文章。
-爬取西刺上的代理IP,并验证代理可用性
爬虫代理IP池项目,主要功能为定时采集网上发布的免费代理验证入库,定时验证入库的代理保证代理的可用性,提供API和CLI两种使用方式。同时你也可以扩展代理源以增加代理池IP的质量和
用scrapy框架爬取拉勾网数据,获取该网站中城市、公司名、公司规模、学历、职位名称、薪资、工作时间的所有数据,能够为岗位提供数据参考。