ID:155962

仗剑天涯

爬虫高级开发工程师

  • 公司信息:
  • 上海百度研发中心
  • 工作经验:
  • 3年
  • 兼职日薪:
  • 1000元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 可工作日远程
  • 所在区域:
  • 上海
  • 浦东
  • 纳贤路701号

技术能力

本人现从事爬虫,大数据工作。 具有五年爬虫经验,能够破解爬取拥有各种反爬措施的网站,熟练使用MySQL、PostgreSQL、Redis、MongoDB数据库,熟练使用多进程,分布式等技术完成项目。 曾独立开发完成日数据量达千万以上某大型电商平台共30家店铺数据获取并清洗入库工作。
目前合作过的客户有:
- 昼光科技 领英数据获取
- 吉祥钼业 漫画图片获取
- 直觉信息 生意参谋聊天数据获取,天猫/京东/苏宁内部数据获取
等等

项目经验

1 采集电商商品数据信息
* 利用scrapy框架,结合selenium动态渲染,采集1688网站某类商品信息
* 将采集信息保存到MongoDB,将图片下载到本地
* 熟练使用CSS选择器解析,使用scrapy/selenium/requests/pyautogui/datetime等模块

2 采集新浪微博信息
* 采集新浪微博大V关注、粉丝、微博,递归采集,较好的处理了反爬
* Ajax请求分析,时间格式处理,数据清洗与存储,对接代理池、Cookies池

3 采集手机APP信息
* 爬取微信朋友圈/京东商品信息评论信息/安居客房价信息/得到书籍信息/boss直聘招聘信息
* 熟练使用appium
* 使用mitmdump监听APP实时数据

4 其他经验
* 实现了币安网、哔哩哔哩、春秋航空、12306等登录验证的破解
* 熟悉并会使用各种反反爬措施,包括headers,cookies,代理池,验证码识别(图形、极验、点触等)
* 爬取了淘宝/哔哩哔哩/中华网科技新闻/微信公众号/币安网/天眼查等网站
* 熟悉分布式爬虫、docker部署,使用Git管理项目代码

案例展示

  • 某大型电商平台后台数据获取

    某大型电商平台后台数据获取

    获取某大型电商平台店家后台生意参谋表格数据; 获取某大型电商平台店家后台客服聊天数据; 获取某大型电商平台商品信息

  • 某社交平台数据获取

    某社交平台数据获取

    突破登录限制大批量获取有价值信息; 多进程分布式获取; 和外包公司合作,两周内保质保量获取对方所需数据。

查看案例列表(含更多 0 个案例)

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    2

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服