ID:256544

陈胖子 身份已认证

爬虫工程师

  • 公司信息:
  • 绵阳奇安信科技有限公司
  • 工作经验:
  • 2年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 可工作日远程
  • 所在区域:
  • 成都
  • 高新

技术能力

熟练掌握urllib、requests、selenium等爬虫模块。
熟悉微信小程序数据抓取。
熟悉 re、xpath、selector 等网页数据提取手段。
熟悉Git版本管理工具。
熟悉 scrapy 爬虫框架。
熟悉fiddler、wireshark等抓包工具。
熟悉浏览器自动化工具的使用。
熟练使用多线程、多进程编程。
能够解决常规 js 逆向加密。
构建过 cookie 池,构建过代理 ip 池。
能够处理常规图片滑块,数字、文字验证码等反爬手段。
了解 MySQL、MongoDB、redis 等数据库。
了解 Linux 系统及其命令操作。

项目经验

当当网、京东图书网数据抓取
selenium,redis,ajax,html
项目描述:项目采用 Selenium 与 Chrome 模拟成浏览器技术进行爬取,主要负责抓取商品
的名称、图片、价格、ISBN 以及
在售卖家的同 ISBN 商品的价格、店铺、库存。
● 考虑到电商页面会有较多的异步或者数据放在 js、jquery 中,所以用 Selenium 与
Chrome 模拟成浏览器,同时防止反
爬技术,整页爬取动态的 HTML;
● 导入 webdriver 和 time 模块,使整页加载完成待爬取动态的 HTML;
● 使用 xpath\re 对数据进行抽取与清洗;
● 把整理以后的数据来保存到 MySQL 数据库中。
某信用信息网站的信息抓取
js,逆向,scrapy
成都
项目描述:为了完善公司软件的信息和信息准确性,需要去该网站抓取数据。该网站含有jsl加
密,需要绕过加密获取数据。
1.分析网站请求逻辑;
2.分析数据接口必备参数;
3.分析参数来源(加密逻辑,逆向)nodejs测试;
4.还原加密逻辑,写接口模拟参数生成进行请求测试;
5.编写爬虫脚本。
6.测试有效期,编写cookie池。
某一站式企业信息查询服务网站的信息抓取 成都
逆向,js
项目描述:获取企业相关信息,对比竞品数据,提高数据准确性,最终目的:实现企业画像。
该网站含有cookie校验、滑块校验。滑块会在访问频率较高时出现。
1.分析请求方式、载荷、请求头等信息,分析得出请求的必需参数。
2.cookie校验中,有两个键服务器会校验。其中一个键动态变化,一小时变化一次。
3.使用fiddler、F12等工具,通过断点技巧、追栈等方式得到加密参数的生成逻辑。
4.尝试分析逻辑,尽可能得使用python还原。
5.使用逆向出来的参数模拟测试。
6.滑块使用图鉴接口绕过。

案例展示

  • 某网站滑块验证码绕过

    某网站滑块验证码绕过

    采集某网站数据,每次翻页或者进入详情页都会出现验证码,采集数据需要绕过该验证码。分析源码调试找出验证码出现到验证结束的整个逻辑,并将相关代码进行提取,在本地测试模拟,最后成功绕过。

  • 某盾滑块验证

    某盾滑块验证

    染过某盾的所有加密参数,拿到正确数据。一共三个请求,第一个d请求检测当前客户端运行环境,无异常返回指纹,具有时效性。第二个get请求拿到imgcode,第三个携带一些加密参数以及轨迹信息给到服务器进行校验。

  • 某网站cookie加密参数染过

    某网站cookie加密参数染过

    采集某网站的信息需要绕过cookie加密参数,通过js逆向将加密参数的生成逻辑还原,并模拟请求发送给服务器,服务器校验通过。

查看案例列表(含更多 0 个案例)

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服