ID:199498

野驴

数据分析员

  • 公司信息:
  • 广州骅路赢电子有限公司
  • 工作经验:
  • 1年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 可工作日远程
  • 所在区域:
  • 广州
  • 天河

技术能力

1、熟悉python语言,熟悉各种爬虫技术和框架,如request,scrapy,selenium等等;
2、有过将近一年的web网站爬虫和app爬虫的经验;
3、掌握正则表达式,xpath提取网页资源的方法
4、熟悉反爬虫技术,如加密参数的逆向解析、滑块验证、IP代理池、绕过JavaScript 参与运算等等;
5、可根据前端网页代码,分析目标网站的真实request地址和response内容,测试网站的反爬级别和访问阈值,检测是否有投毒数据;
6、熟悉numpy科学计算库和panda数据分析库;
7、Python操作Mysql数据库增删改查。

项目经验

2019.04——2019.05
亚马逊电商平台
责任描述:
编写爬虫程序,数据清洗,维护IP代理池,编写反反爬策略,数据存储,结果报告。
项目简介:
1、爬取所有地区的亚马逊电商平台的商品列表页和详情页数据;
2、获取所有地区的亚马逊电商网站的根域名和顶级域名。
3、由于亚马逊有IP访问限制,所以使用IP代理池技术;
4、亚马逊有图形验证码反爬技术,使用百度的图形验证码识别api接口;
5、根据不同的UI页面,使用不同的正则表达式和xpath提取规则;
6、数据保存在json字符串中,转换成python字典,存进mysql数据库;
7、使用生产者-消费者队列对抓取下来的数据进行清洗,并生成分析结果报告,虽然这样子爬取速度比较慢,但是数据的实时性强。
8、该项目每天的爬取数量大约在10万~20万条,消耗的代理IP数量每天约为500~1500条。

2019.05——2019.05
eBay电商平台
责任描述:
编写爬虫程序,数据清洗,维护IP代理池,编写反反爬代码,数据存储,结果报告,VPN搭建。
项目简介:
1、爬取eBay电商平台的商品列表页和详情页数据;
2、eBay网站会根据你的ip所在地给你提供所在地区的商品信息,所以搭建多个地区的VPN

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服