1 熟悉python编程
2 熟悉 linux 常用操作命令
3 熟悉 python爬虫中的 scrapy 框架
4 掌握 python爬虫的分布式
5 了解基于cookie 登录的基本原理
6 熟练正则,xpath,beautifulsoup抓取信息
项目 : 爬取 贝壳 相寓 房源信息
项目描述:分布式爬取贝壳的房源信息 爬取字段:小区地址 价格 平米数 什么时间发布 等
项目技术:1 采用scrapy框架,使用Redis实现分布式爬虫
2 反反爬机制:建立代理ip 等