ID:344873

gyxzq

爬虫工程师

  • 公司信息:
  • 软通动力
  • 工作经验:
  • 5年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 可工作日远程
  • 可工作日驻场(离职原因)
  • 所在区域:
  • 其他
  • 全区

技术能力

熟练基于 Requests, Scrapy, Selenium 各模块的数据抓取
熟悉 python 异步、多线程、多进程爬虫
熟悉 Xpath, BeautifulSoup,Re 的数据清洗
熟悉验证码,js 异步加密, 摘要算法,对称与非对称算法的逆向分析
熟悉瑞数456、抖音、拼多多、京东、淘宝补环境解决参数问题
熟悉 oracle、mysql 数据库、熟练使用 sql
掌握 Hadoop 环境架构和 hive 基本操作,有千万条数据处理经验
熟悉 Linux 操作系统,能使用 shell 脚本基本操作命令
熟悉 datax、sqoop、kettle 、帆软等 ETL/BI 工具,数据的增量和全量导入、清洗宽表加工、指标计算等流程
了解 spark 离线计算,熟悉 xxl-job 调度平台使用

项目经验

京东联盟h5st参数破解

内容:
破解京东联盟h5st 参数,实现商品详情抓取
通过逆向分析,得知需要参数i、uuid、token
扣出加密代码后补环境获取参数h5st
业绩:
python请求后成功抓取商品详情

抖音a_b参数补环境

内容:
通过补环境方式破解参数a_b
长度可以达到160位


深圳大学总医院瑞数5

内容:
该网站为瑞数5加密,通过抓包分析,了解其 cookie 加密特点,通过逆向手段得到代码后开始补环境生成 cookie。
业绩:
成功获取 cookie ,并利用生成的 cookie 抓取到数据。

163易盾点选验证码附带成功率80%轨迹

内容:
通过协议方式解决163易盾点选验证码
1.https://c.dun.163.com/api/v3/get 发包获取图片 文字 token
需要解密的参数;
fp:
cb:
callback:
actoken: 测试写死也可以
2.https://c.dun.163.com/api/v3/check 发包获取validate
需要解密的参数:
token: 1里面的token
data: m、d、p、ext
鼠标轨迹: 我用的是贝塞尔曲线(正确率也不是百分百)
cb:
callback:
业绩:
python请求后可以正常获取到数据。

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系聘用方端客服
联系聘用方端客服