熟练使用Requests,Scrapy,Selenium对各种数据的抓取,熟练使用Xpath、BeautifulSoup、JsonPath等数据提取、清理方式;
熟悉Python语言,熟悉Linux操作系统,了解使用Django,Flask等框架,能够使用框架进行简单快速后台开发;
熟练使用mysql数据库,熟悉Redis数据缓存,了解Restful api规范;
熟悉js,css,html等前端代码,能够对web程序使用uwsgi和Nginx进行部署;
1.项目基于Scrapy_redis框架采用分布式实现,分析url规律设置对应的正则提取规则,去重模块使用Scrapy-redis中的dupefilter模块实现;
2.下载中间件中实现process_request方法配置动态代理和动态User-Agent应对网站反爬措施,并根据url使用re去除不相关链接,减少无效请求;
3.爬取的数据存在于Redis中,在piplines中实现处理Redis的数据,根据情况选择保存到MongoDB或Mysql数据库中。
角色 | 职位 |
负责人 | 高级爬虫工程师 |
队员 | 前端工程师 |
队员 | 后端工程师 |