熟悉Python编程,具有爬虫,JS逆向经验,熟悉大部分数据加密解密方式;
熟悉Python自动化办公,EXCEL自动化;
熟悉pandas数据清洗;
有MySQL数据库工作经验,熟悉MySQL数据存储;
本人主要从事数据开发工作,主要以python爬虫为主,同时做flask数据BI展示
项目1:
电商平台店铺管理数据爬取,目标数据为店铺相关考核指标
步骤:
由于店铺较多,分布到的账号也较多,使用selenium自动化爬取,模拟人工登录,自动滑块,进入相应页面获取数据
结果:
虽然会有点慢,但是关系到账号安全,以及平台后端服务器的压力,这样大大提高了稳定性和安全性,反爬几率很低
项目2:
拼多多商品数据获取
步骤:
由于涉及到请求体中有anti_content等参数,需要JS逆向通过断点定位到目标JS函数,扣除JS代码,通过VM模块和设置Proxy代理(主要用于打印出需要补环境的地方)进行补环境,最后执行代码获取数据
主要负责平台数据获取开发,数据存储,以及遇到广告需要添加对应的xpath进行跳过,平时进行代码维护。
主要定位请求参数中动态参数进行JS逆向定位,通过使用VM模块对动态参数定位到的目标函数进行补环境,执行目标函数得出动态参数