熟练基于 Requests, Scrapy, Selenium 各模块的数据抓取
熟悉 python 异步、多线程、多进程爬虫
熟悉 Xpath, BeautifulSoup,Re 的数据清洗
熟悉验证码,js 异步加密, 摘要算法,对称与非对称算法的逆向分析
熟悉瑞数456、抖音、拼多多、京东、淘宝补环境解决参数问题
熟悉 oracle、mysql 数据库、熟练使用 sql
掌握 Hadoop 环境架构和 hive 基本操作,有千万条数据处理经验
熟悉 Linux 操作系统,能使用 shell 脚本基本操作命令
熟悉 datax、sqoop、kettle 、帆软等 ETL/BI 工具,数据的增量和全量导入、清洗宽表加工、指标计算等流程
了解 spark 离线计算,熟悉 xxl-job 调度平台使用
京东联盟h5st参数破解
内容:
破解京东联盟h5st 参数,实现商品详情抓取
通过逆向分析,得知需要参数i、uuid、token
扣出加密代码后补环境获取参数h5st
业绩:
python请求后成功抓取商品详情
抖音a_b参数补环境
内容:
通过补环境方式破解参数a_b
长度可以达到160位
深圳大学总医院瑞数5
内容:
该网站为瑞数5加密,通过抓包分析,了解其 cookie 加密特点,通过逆向手段得到代码后开始补环境生成 cookie。
业绩:
成功获取 cookie ,并利用生成的 cookie 抓取到数据。
163易盾点选验证码附带成功率80%轨迹
内容:
通过协议方式解决163易盾点选验证码
1.https://c.dun.163.com/api/v3/get 发包获取图片 文字 token
需要解密的参数;
fp:
cb:
callback:
actoken: 测试写死也可以
2.https://c.dun.163.com/api/v3/check 发包获取validate
需要解密的参数:
token: 1里面的token
data: m、d、p、ext
鼠标轨迹: 我用的是贝塞尔曲线(正确率也不是百分百)
cb:
callback:
业绩:
python请求后可以正常获取到数据。