熟练应用PyCharm、svn、Git等开发工具,有良好的代码规范
熟悉Nginx、Docker的部署及操作
熟悉爬虫的基础知识与requests应用
掌握常见的爬虫、反爬虫知识及应对措施,利用Xpath,Regex对数据进行提取
掌握简单的Selenium和Phantomjs
掌握scrapy-redis分布式框架并进行开发
了解HTML5、JavaScript、css、jQuer、Ajax、VueJS、Angular等前端技术
1.根据公司需求,负责爬取互联网,科技,财经分类,使用用Scrapy完成代码,用xpath对网页结构进行分析;
2.负责对爬取的数据进行清洗去重工作并存入数据库,爬取完成后通过邮件通知其他开发人员;
3.使用Redis分布式爬虫,充分利用服务器资源,提高爬取效率,开启定时爬虫,定时定点爬取。