有5年python工作经验, 擅长python的爬虫,数据分析处理等等
了解网络基本知识, 对HTTP,TCP等通信协议有足够的了解
擅长Mysql,Sqlite等数据库操作
熟练使用fiddler, Wireshark等抓包工具
会多门编程语言, 如 C, C#, java等
负责根据需要爬取的数据进行需求分析,分析目标网站的网站结构和一些反爬手段;
负责通过requests、scrapy、scrapy-redis、xpath等技术手段编写爬虫程序进行内容抓取,对抓取到的数据进行清洗过滤,分表存储,以供其他部门使用;
负责定期维护ip代理池,清除失效代理ip,根据爬取过程中遇到的一些反爬手段,优化自己的程序;
负责使用web的Django框架参与其他公司内部软件的开发;
负责数据的去重,清洗,对于亚马逊ip反爬,检测验证码,制定具体应对措施。