ID:288798

爱之则不觉其过

爬虫工程师

  • 公司信息:
  • 君协
  • 工作经验:
  • 2年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 所在区域:
  • 其他
  • 全区

技术能力

熟练掌握Python基础语法,
熟练掌握xpath,re,css,json等的信息抽取技术;
熟悉常见反爬机制,验证码识别,IP代理池、应用Ip池、headers认证和cookie等;
熟悉掌握多进程,多线程以及协程,能够运用到实际爬取工作中;
熟练使用selenium模块,能够调用打码平台以及如何进行伪装成浏览器;
掌握数据库mongodb和mysql,能够进行增删改查以及简单的爬虫存储数据库;
熟悉掌握常用框架scrapy,exexjs,scrapy-redis分布式;
能够掌握分析各种加密方式,如md5,bs64,对称加密AES/DES,非对称加密RSA等,能够独立解决js反爬和模拟登陆问题;
能熟练的解决js混淆以及常见反调试;
掌握js调试,定位加密函数,dom事件断点,XHR断点,跟值,无限debugger绕过,扣代码并在js调试工具中运行;
熟练使用js调试工具如发条js,乐易助手,抓包工具fiddler进行抓包以及hook代码;

项目经验

登录过程 2022年10月
加密方法: 极验4代滑块
解决方法 通过js逆向分析js逆向实现滑块,拿到加密值W,还原图片,滑动拿到加密轨迹串 成功实现登录
爬天天基金吧所有数据(正则匹配+ip代理+异步)
独立完成。先分别对712个基金吧匹配出总帖子数量。根据总帖子数量和每一页帖子可分析出页数。对每一页进行爬取,发现同一ip短时间爬取100多次便会对目标url重定向,于是使用隧道ip爬取。最后部署异步,爬取帖子数量为300多万。
基于流采 电商数据采集(web和网页h5)(京东/苏宁/国美)
项目内容 使用浏览器抓包工具 分析数据接口及网页接口,使用css json 解析数据并提取,使用scrapy_redis独立完成程序的编写 存入rabbitmq,反爬:对于ip有一定的风控,解决办法: 代理池更换ip
Js逆向之贝壳找房password(webpack+非对称加密RES+断点+js本地调式+自吐)
独立完成。之前对待webpack是硬扣,但是对于RES加密这种代码量大而言,模块化扣代码就非常必要了。先全局搜索password,打断点找到加密位置,发现是webpack加密。把分发器扣出来备用,通过控制台找到加密函数的编号,把他们放去分发器调用模块中,最后通过输出调用模块的函数就可以自吐调用的模块编号,把所有需要的函数整理好。自定义一个函数调用分发器,即自执行函数中的方法,即可逆向出密码。
能源e站 2022年10月
加密方法: ob混淆 异步 unicode编码 加密key动态 返回的响应数据需要重新还原解决办法:通过js逆向分析 定位所在加密位置 通过py还原 scrapy编写采集程序

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服