【 技术栈 】
1, 精通 python 语言,熟悉requests,scrapy, selenium,pyppeteer,splash, pyqt5 等常用技术点, 5年 爬虫 开发经验。
2, 精通 mongodb,redis, Mysql, postgresql 等数据库。
3, 精通数据处理,熟悉HTML5,javascript; 以及web开发(flask,django)等后端框架。
4, 熟悉 SVG 矢量图、图片旋转验证、极验滑块验证、超级鹰图片识别、短信验证、代理 IP、JS 动态页面加载、JavaScrip 加密等反爬破解方法;
5,反向代理 针对 js深度加密(js深度cookies、url加密/甚至js包也被加密)反爬措施。
【 主要提供服务 】
代码编写,数据采集,数据清洗,数据更新
【 次要提供服务 】
文件下载,图片水印去除
项目经验:
开发项目涉及多个平台,数据来源不仅多且数据量庞大,大致分包含:各类中英文期刊网站,国内外标准网站,材料网站,化学,药物网站,专利等等。
数据清洗分析、调整、上线。
定期维护线上数据、更新数据。
上述为国外化学网站,还另包含国内化学来源。 该板块的网站来源,由于数据量庞大,数据采集是采用多线程更换代理ip访问,以提升爬取速度。
举例两个材料网站,网站结构爬取需要账号,爬取也比较困难,最终数据清洗结构也很复杂,经过多次调整(包括数据格式调整,图片水印等等),才能上线使用。