根据所需要求,爬取对应网站数据,有两年开发爬虫经验。
可熟练使用scrapy, requests,等进行内容爬取。
了解一些反爬虫机制。
能熟练使用python 配合linux程序开发,以及配合shell脚本,进行系统维护。
可以使用python配合C++进行性能效率的再次提升。
爬取过豆瓣网站
描述:完成反反爬虫机制,分布式存储,维护代理ip
解决方法:
使用requests库进行爬取,
定期检查ip池的质量。
web服务器端开发
使用python 完成web后端开发。
定期维护服务器。