1、参与分布式爬虫和数据采集系统的架构设计和开发;
2、负责反爬虫策略研究,代理IP、验证码识别等采集支撑服务建设;
3、负责大规模文本、图像数据的抓取、抽取,去重、分类,垃圾过滤,质量识别等工作;
4、负责公司爬虫的技术调研以及策略优化;
5、负责制定相关的反爬虫安全策略。
负责根据需要爬取的数据进行需求分析,分析目标网站的网站结构和一些反爬手段;
负责通过requests、selenium、xpath等技术手段编写爬虫程序进行内容抓取,对抓取到的数据进行清洗过滤,分表存储,以供其他部门使用;
负责定期维护ip代理池,清除失效代理ip,根据爬取过程中遇到的一些反爬手段,优化自己的程序;
负责数据的去重,清洗,对于亚马逊ip反爬,检测验证码,制定具体应对措施。
爬虫程序能自动绕过网站的反爬策略,准确无误的爬取小说的每个章节,并清晰去除无关的字符,保持原有格式,并存储到本地文件夹,每个章节都会生成自己的标题,自动生成TXT文档供阅读
爬虫程序自动绕过网站反爬策略,准确提取所有页面的电影信息,并用xpath准确解析电影资料,去除无用的字符,并按原格式输出,并保存到本地文件夹。
爬取喜马拉雅小说网,荒村阴阳师音频,该网站有多重反爬策略,隐藏了真实的URL,构造URL就花了很长时间,后台数据通过ajax加载的,先构造每一集的url,然后通过遍历循环的requests方法,分别获取每一集的数据,并使用二进制方法存储到本地文件夹,从而得到MP3音频格式文件,