精通python;
精通scrapy框架,request,selenium自动化,scrapy_splash自动化等爬虫工具;
精通xpath,re,css等各种数据匹配方式;
对js,html有一定掌握能力;
对市面上反爬措施应对有丰富经验,熟练解决各种反爬措施;
将爬取数据以mysql,excel,json等各种方式存储,并进行清洗;
微信文章数据爬取:
根据客户提供的需求,提示用户输入需要查找的关键词,以关键词爬取微信中带相关关键词的文章,链接selenium无头模式进行自动化信息,避开微信反爬措施,存储为对应的数据格式
各类技术博客网站数据爬取:
根据客户需求,对csdn,开源中国,博客园等技术分享博客网站进行大规模关键词文章爬取,解决的相关反爬措施有useragent限制,cookie限制,ip限制,数据最终以json以及excel格式交予客户