个人在近两年自学了一定的Python知识,主要是在Python爬虫方面付出了一定的努力。一定程度上掌握了scrapy的使用,JS逆向等爬虫所需的基础知识。
本人在学习爬虫过程中也进行了一定的自我训练,确实承认不能算是很好的爬虫工程师,因此本人暂时只能接一些简单的工作进行自我训练以便提高技巧。
本人工资要求较低,现阶段主要是接不急需的简单或者稍复杂的爬虫任务。
1.使用scrapy对微博手机版网站中的个人微博进行爬取,并将数据保存到MongoDB中。
2.使用selenium对淘宝网站进行爬取,但最新的淘宝反selenium的方式自己还无法破解。
3.针对某使用JS加密手段的漫画网站,本人进行了爬取。
1.分析该网站地址,为ajax加载,post参数加密。 2.查看js文件找到post参数的加密方法。 3.使用scrapy编写代码,并且使用scrapy的异步功能进行下载。 4.要求用户首先输入起始章节号,之后将开始循环下载,直到该漫画的所有内容下载完毕。
1.微博web版内容复杂,爬取困难,因此选择了微博手机版页面。 2.分析url地址,构造请求。 3.获取个人微博的所有内容,并将数据存入mongodb中。
还不错的,下次有机会再合作