熟悉django的开发流程,
使用各种数据提取手段,js xpath 正则可以制定完整的爬虫方案,优化爬取效率
熟悉爬虫scrapy框架搭建分布式爬取
mysql数据的索引优化
Nginx加wsgi部署项目
项目:淘宝页面抓取
职责:负责页面分析,抓取工作,将数据进行存储
技术名词:mongodb,selenim,chrome/phantomJS,xpath,scrapy
项目流程:1.搜索关键字:利用selenium驱动浏览器搜索关键字,得到查询后的商品列表
2.分析页面并完成分页:得到商品的页码数,模拟翻页,得到后续的商品列表
3.采用MongoDB作为本地数据库,将要提取的数据,保存在mongodb中,同时每次下载前会检查请求指纹,防止重复下载,避免资源浪费;
4.分析提取商品内容:利用PyQuery分析源码,解析得到商品列表