1、Python语言基础,MySQL、MongoDB和Redis数据库;
2、熟悉HTML、CSS、JavaScript等Web前端技术;
3、了解Web开发相关技术,熟悉Flask框架;
4、熟悉request,urllib库;
5、熟悉基于正则表达式、XPath、CSS等网页信息抽取技术;
6、熟悉HTTP协议,各种web认证机制;
7、熟悉常见的爬虫反爬虫策略,如伪装http请求头、robot协议、Cookie等;
8、熟悉网络爬虫相关技术,熟悉Scrapy爬虫框架,有爬取数据和反爬经验;
2019.09-2020.09 | 圣虹简历公司 | Python爬虫工程师
负责对登录验证码进行训练识别,区分验证码英文大小写,实现对不定长验证码识别,解决语音验证码登录;
负责通过搜索关键字获取关注用户,发送私信,推广公司网站;
负责广告投放监控,关键字推荐,关键字热品,商品/店铺评论,竞争对手店铺监控,实时监控商品被跟卖/差评。
负责兼性能测试,编写自动化脚本测试,了解整个亚马逊商品详情页展示不同,制定不同页面的解析方案;
负责数据的去重,清洗,对于亚马逊ip反爬,检测验证码,制定具体应对措施;
负责解决翻页成功没有数据,数据在网页上无法获取的情况,呈现另一套假的Html页面。