ID:300578

Rimen

爬虫工程师

  • 公司信息:
  • 深圳易简空间技术有限公司
  • 工作经验:
  • 6年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 可工作日远程
  • 可工作日驻场(自由职业原因)
  • 所在区域:
  • 深圳
  • 南山

技术能力

负责定向数据的采集与爬取、解析处理、入库及备份等数据日常工作;
研究主流网站的爬取方法及数据清洗处理,负责非定向数据的清洗、整理、整合及合并等工作;

1、1-3年爬虫系统开发经验;
2、使用技术框架包括但不限于:Selenium
3、熟练使用正则表达式、xpath解析数据、搜索策略、算法、数据聚类、重组技术,熟悉反爬虫
4、熟练掌握分布式爬虫,日采集量千万级别以上,并充分了解抓取策略(1、深度优先遍历策略 2、宽度优先遍历策略 3、反向链接数策略等);、
5、熟悉海量代理IP池建设,复杂验证码识别
6、熟悉抓包工具(Wireshark,Fillder等),熟悉网络通信编程,网页抓取原理及技术,熟悉HTTP传输协议,能模拟各类操作爬虫;熟悉爬虫实现原理机制;对分布式和多线程技术有一定了解;
7、 有较强的主动学习能力、逻辑思维能力、分析并解决问题的能力;
8、 较强的责任心及团队合作精神,有独立解决问题和快速学习并应用新技术的能力。

项目经验

内容:韩国 YES24演唱会门票抢票功能开发
技术实现:
1. 账号登录;
2. 日期选定和有票座位获取;
3. 座位锁定(随机或指定);
4. 联系人、联系方式、地址、付款方式和银行选择等信息提交;
5. 订单生成。
技术难点:
1、登录需要破解 token 的生成;
2、信息提交和订单生成需要破解身份 key 的生成;
3、验证码识别

该项目主要是解决不定时人工充值(副卡1368张)的及时性,减少人为的失误,降低了人工成本。
技术的实现:
1. 登录验证;
2. 生成副卡对应的 key_code;
3. 充值信息表单提交;
4. 完成充值;
技术难点:
1、登录密码有加密校验,使用 sha 1加密
2、key_code 的生成需要寻找生成的前端代码,通过 js2py 渲染生成;
3、表单信息的提交需要识别验证码(加减乘除)

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    1
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服