使用语言python,主要做爬虫和web开发。熟练使用scrapy框架爬虫,能够进行全站数据爬取 深度爬取 和增量式爬取。了解mysql和redis工作原理并能熟练使用。熟悉Django框架,做过爬虫项目和Django项目
网易新闻不同板块的爬取,使用了scrapy+selenium,对网易新闻不同板块实现了异步高效的爬取。中国空气质量爬取,该项目当中的网站使用了js混淆,js加密等反爬机制,通过使用pyexecjs模拟js代码,对该网站中的加密解密过程进行模拟,获取到了解密后的数据
该项目中使用了scrapy框架+selenium对网易新闻不同板块发起请求,抓取动态数据,经过解析后在scrapy管道中写入mysql进行数据持久化
该项目中,网站使用了js混淆和js加密,并且网站携带的ajax请求参数也是动态加密的,因此,我先定位到了ajax请求参数的加密方法,将其粘贴到了Code.js文件中,发现网站ajax请求返回的数据也是加密的,因此在定位到了返回数据的解密方法,最后使用pyexecjs模拟js代码,