对Python爬虫的request,selenium,scrapy框架,mysql数据库,Redis数据库熟练掌握,
21年通过了软考初级程序员考试,对淘宝,新浪微博,github,全书网,简书,360图片都有
一定爬虫经验,了解常见的反爬虫机制,能运用代理,cookie池技术。
1.利用scrapy框架的crawlspider爬虫抓取简书文章及相关数据,并将数据通过pipeline存储到mysql数据库中,后将项目增添了scrapy-redis组件,优化为了分布式爬取。
2.利用selenium+scrapy框架,将新浪微博的登陆成功后的cookie存入cookie池,再通过随机取出cookie对新浪微博的相关个人信息及微博内容进行爬取,并存储到mysql数据库。
3.通过构建post请求对github进行登陆,并获取数据。