1、熟悉数据库的使用,能够熟练使用MySQL、PostgreSQL、MongoDB等开源数据库,有大数据的存储、索引优化经验;
2、能够熟练使用python语言。有过Django、tornado、flask等框架开发经验;
3、熟悉互联网常用协议,有HTTP、TCP、UDP相关协议开发经验;
项目名称:分布式爬虫爬取药业新闻
项目描述:
这个项目是通过scrapy-redis搭建分布式爬虫爬取药业新闻公布栏,爬取列表页每一项下的子页获取数据;
我的职责:
首先爬取首页后通过xpath匹配每个的信息块的span后构建请求,并通过scrapy.Request发送请求,用xpath匹配需要的信息。
同时循环创建下一页请求的form表单,通过scrapy.FormRequest发送POST请求。所有爬取的信息缓存到redis数据库中,
最后通过编写python脚本将redis数据库中数据读取出来加入mysql数据库。