Python爬虫Web网页基础requests、urllib的使用,网页数据的解析提取BS4、pyquery、parsel的使用,关系型数据库MySQL存储和MongoDB存储等的使用,Ajax的数据爬取,异步爬虫,JavaScript动态渲染页面的爬取,会使用OCR技术识别图形验证码,代理的使用,JavaScript逆向爬虫,APP数据爬取。
爬取淘宝、电影网站的评论、评分、名称等基本数据,使用aiohttp的异步爬取一个图书网站包含数千本的图书信息,网站数据是由JavaScript渲染而得的还实现了MongoDB异步存储。实现了使用Selenium爬取电影网站,实现了JavaScript逆向爬取有API参数加密的电影网站。