1. 熟悉python语言,熟悉在Linux下开发
2. 熟悉分布式爬虫搭建
3. 熟悉pyspider、scrapy开发框架,scrapyd、scrapydweb、scrapy-redis
4. 熟悉HTML、CSS、JavaScript、Node.js、AJAX交互技术,熟悉Xpath和正则表达式
5. 熟悉MySQL、MongoDB、Redis数据库
6. 熟悉常见的反爬虫技术:调试保护、代码混淆、封IP、验证码、CSS反爬、字体反爬、模拟登陆、JavaScript逆向
7. 熟悉浏览器开发者工具、Charles、Fiddler等调试工具和嗅探工具
8. 熟悉自动化测试工具:puppeteer、selenium
9. 熟悉虚拟化技术Docker
10. 熟悉抖音、微博、淘宝、京东等主流网站规则
项目名称:某裁判文书检索网站
项目部署:Linux+Mongo+Python+Scrapy+JavaScript
项目简述:
1. 网站需要模拟登陆后带cookie进行访问,会对请求频繁的IP进行封禁
2. 登录的帐号密码参数有JavaScript加密,对网页进行调试和抓包对JavaScript加密分析,编写JavaScript代码还原参数的加密的方法,得到登陆所需参数
3. 搭建Cooike池解决封账号的问题
4. 使用Scrapy框架针对网站的网站规则进行爬虫编写
5. 按照数据部门所需字段进行数据的抓取,然后去重,清洗
6. 将数据保存到Mongo数据库
7. 使用logging模块编写监控程序进行爬虫监控,并根据日期定向输出日志到log文件
8. 将爬虫上传到Scrapyd挂载进行实时监控,设置定时启动实现增量式爬虫
工作内容:编写爬虫代码,应对反爬策略,分表存储,维护Cookie池,清洗数据然后入库
项目名称:某媒数据库网站
项目部署:Linux+Mongo+Python+Scrapy+JavaScript
项目简述:
1. 网站需要模拟登陆后带cookie进行访问,会对请求频繁的账号进行封禁,需要更换账号访问
2. 登录参数使用了RSA加密和指纹的算法进行加密处理,使用谷歌开发者工具进行网页的调试和抓包对JavaScript加密进行分析, RSA加密的需要的几个要素,比如他的公钥,因为RSA是非对称加密本地使用公钥加密,服务器上使用私钥解密,编写JavaScript代码还原参数的加密的方法,得到加密参数;指纹的算法加密处理的参数如果不修改请求头信息,那么这个值就是固定不变的,如果修改请求头信息,那么就需要重新生成这段hash
3. 搭建IP池更换IP代理,搭建账号Cooike池解决封号问题
4. 使用Scrapy框架针对网站的网站规则进行爬虫编写
5. 按照数据部门所需字段进行数据的抓取,然后去重,清洗
6. 将数据保存到Mongo数据库
7. 使用logging模块编写监控程序进行爬虫监控,并根据日期定向输出日志到log文件
8. 将爬虫上传到Scrapyd挂载进行实时监控,设置定时启动实现增量式爬虫
工作内容:编写爬虫代码,应对反爬策略,分表存储,维护IP池和Cookie池,清洗数据然后入库