1.熟练掌握爬虫Requests、Scrapy、Scrapy-Redis框架,掌握正则表达式、xpath提取网页内容的方法,熟练构建分布式爬虫,以及Linux下的定时启动爬取;
2.熟练使用Selenium、Pyppeteer;
3.掌握基本的逆向js,
4.了解异步爬虫,包括asyncio, aiohttp
5.掌握处理滑动验证码以及使用打码平台处理更复杂的验证码;
6.掌握Django框架,了解RESTful;
7.熟练使用MySQL、redis、mongoDB的增删改查。
美团爬虫:
1、爬取美团网站美食分类里的商家数据;
2、scrapy-redis爬取,该框架实现URL和数据去重,使爬取效率更高;
3、携带cookie和UA进行抓取,采用IP代理,构建UA池;
4、使用云打码平台解决验证码问题;
5、使用xpath等提取网页内容,并将数据保存到MongDB;
6、使用logging模块编写爬虫监控程序进行爬虫监控,并根据日期定向输出到log文件。
项目名称:知乎百万用户公开信息采集与分析
项目描述:
1、爬取知乎网站用户主页信息,以及用户关注的人。
2、Scrapy-Redis爬取,该框架实现URL和数据去重,构建增量式爬虫程序,使爬取效率更高;
3、需要通过登录后,携带Cookie进行抓取,采用IP代理,构建UA池;
4、使用Xpath等提取网页内容,并将数据保存到数据库;
5、使用Logging模块编写爬虫监控程序进行爬虫监控,并根据日期定向输出到log文件。
6、利用Matplotlib对数据进行简单的分析与可视化