1、掌握python语法、有python项目开发经验;
2、熟悉python爬虫框架Scrapy,有开源网页爬虫开发经验;
3、熟悉MySQL、Oracle数据库,熟练掌握SQL语句;熟悉 MongoDB。
4、 熟悉HTTP、XML、JSON、SOAP、tcp/ip、网络代理等网络协议。
5、熟悉常见反爬机制及对应的应对措施,如ua、cookie识别;
6、有较强的数据分析与建模能力;
7、熟悉Linux常用命令.
1、抓取淘宝、京东等电商网站
抓取各电商的商品信息,销售量以及对商品的评论.
2、爬取招聘网站
爬取BOSS招聘网的招聘能显示的基本信息
3、爬取小说网
能够爬取所有免费的小说
4、爬取智联招聘,二手车网
获取房屋信息和车辆信息