ID:149579

LanSniper

数据开发工程师

  • 公司信息:
  • 上海画龙科技
  • 工作经验:
  • 2年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 可工作日远程
  • 所在区域:
  • 上海
  • 徐汇

技术能力

熟练掌握Python语言,熟悉各种反爬虫机制。
熟悉font-face自定义字体反爬。
熟练掌握多进程,多线程,协成开发
熟悉HTTP/HTTPS协议,TCP/IP网络协议。
熟练使用requests等网络模块。
熟练使用xpath与css选择器、正则、json模块进行数据提取。
熟练使用selenium+各类浏览器,以及scrapy-splash实现动态HTML抓取
熟练掌握Scrapy框架及其高级特性。
熟悉Redis、MySQL、Mongodb、postgresql数据库操作和特点
熟悉HTML、CSS、Javascript、jQuery以及AJAX等前端技术
熟练使用numpy,pandas,matplotlib实现数据清洗,分析,展示
了解django和flask框架,可以搭建网站后端及数据api

项目经验

天猫店铺商品爬虫
项目描述:
为了爬取天猫指定店铺的全部商品信息,对天猫的手机触屏版页面进行抓取,采用
fiddler4抓包工具获得天猫使用js异步加载商品信息使用的url。使用requests发送请求,获取json数据后,利用mongodb存储
天眼查,启信宝公司数据抓取所属公司:
项目描述:
从天眼查公司相关数据,第一步从天眼查手机端抓取了2000W条公司的工商注册名称以及在其在天眼查的id存入mysql数据库用于抓取详情拼接url。天眼查数据保护十分严密,需要登陆之后才能得到全部数据,通过接码平台注册了1000个天眼查账号,同时在8台服务器部署300个任务抓取,由于天眼查大量js异步加载内容,工具上选用了selenium + headless chrome ,每个账号大概爬取300个公司数据后会出现图片点击验证码。使用若快图片识别平台获取文字坐标,然后selenium操作浏览器点击解除验证。爬取后的数据初步以文件形式存入阿里云oss,然后通过初步清洗后以json格式存入postgresql数据库
启信宝使用requests自搭框架,破解启信宝的登陆接口加密,以及大部分数据接口请求头中的加密key,value

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服