1.熟练应用Python的库及模块,有良好的编程习惯
2.熟练掌握 MySQL主流关系型数据库开发技术
3.熟练使用re/xpath/lxml解析模块;
4.熟练requests爬虫模块;
5.熟练使用charles抓包工具;
6.熟悉scrapy爬虫框架,熟悉selenium自动化工具;
7.熟悉解决反爬代理ip,验证码处理;
8.熟悉js逆向
9.了解app逆向
北大法宝
项目描述:
爬取全国法院1991-2013年的案例
1、爬取所有法院,cookie会过期,需要模拟获取cookie
2、爬取所有法院案例的列表页信息和详情页链接,数据量交大,用的多线程爬取,存到mongo里
3、爬取所有案例的详情页信息,请求比较慢,用的多线程和分布式,将请求放到redis中,并对爬取的数据进行解析、拆分、清洗,存到Mongo里
个人职责:
编写采集程序,解决反爬,数据清洗,分表存储,维护代理ip