职位ID:156984

解决亚马逊欧洲站关键词爬取中,出现的大量503错误的反爬方案

  • 合作方式:
  • 项目制 全国远程
  • 预估日薪:
  • 2000
  • 预估总价:
  • 60000元
  • 预估工时:
  • 30天
  • 所在区域:
  • 全国远程

需求描述

一、需求
处理亚马逊多站点关键词爬取风控503反爬

二、具体说明
现项目需求爬取亚马逊各个站点的关键词信息,在大批量爬取的过程中,遇到了503的风控反爬,情况表现如下:

1. 美国站点的爬虫稳定正常,没有503反爬情况
2. 除了美国站以外的站点,以英国和德国为例,在爬取前1-2小时内爬取正常,在第2小时左右开始,出现大量503的情况。
3. 日级别爬取量

UK(英国): 750000,
DE(德国): 900000,
FR(法国): 330000,
ES(西班牙): 240000,
IT(意大利): 345000,
CA(加拿大):405000,
JP(日本): 750000,
日爬取量总计:3720000

4. 小时级别爬取量
UK(英国): 100000,
DE(德国): 50000,

小时爬取量总计:150000
5. 总日均爬取量
3720000 + 300000 * 24 = 10920000

三、爬取内容

1. 爬取内容主要是访问搜索页的内容,在亚马逊首页搜索框中输入关键词,访问后的页面html。具体解析内容这边已完成,可提供解析函数
2. 可通过拼链接的方式访问获取html,https://{domain}/s?k={keyword},比如:https://www.amazon.co.uk/s?field-keywords=mixer

四、交付内容
1. 解决风控503的爬虫代码
2. 爬取过程需稳定,没有503风控。
一、需求
处理亚马逊多站点关键词爬取风控503反爬
二、具体说明
现项目需求爬取亚马逊各个站点的关键词信息,在大批量爬取的过程中,遇到了503的风控反爬,情况表现如下:
1. 美国站点的爬虫稳定正常,没有503反爬情况
2. 除了美国站以外的站点,以英国和德国为例,在爬取前1-2小时内爬取正常,在第2小时左右开始,出现大量503的情况。
3. 日级别爬取量
UK(英国): 750000,
DE(德国): 900000,
FR(法国): 330000,
ES(西班牙): 240000,
IT(意大利): 345000,
CA(加拿大):405000,
JP(日本): 750000,
日爬取量总计:3720000
4. 小时级别爬取量
UK(英国): 100000,
DE(德国): 50000,
FR(法国): 50000,
ES(西班牙): 50000,
IT(意大利): 50000,
CA(加拿大):50000,
JP(日本): 50000,
小时爬取量总计:300000

5. 总日均爬取量
3720000 + 150000 * 24 = 7320000
三、爬取内容

1. 爬取内容主要是访问搜索页的内容,在亚马逊首页搜索框中输入关键词,访问后的页面html。具体解析内容这边已完成,可提供解析函数
2. 可通过拼链接的方式访问获取html,https://{domain}/s?k={keyword},比如:https://www.amazon.co.uk/s?field-keywords=mixer

四、交付内容
1. 解决风控503的爬虫代码
2. 爬取过程需稳定,没有503风控。

正常爬取情况

风控503爬取情况

五、验收方式
1. 甲方推送消费队列,乙方爬取消费入库,满足总日均爬取量即可。
2. 可以提供代理进行爬取


五、验收方式
1. 甲方推送消费队列,乙方爬取消费入库,满足总日均爬取量即可。
2. 可以提供代理进行爬取

投递职位 已有6人投递,发布人 点此登录 后查看。

信用行为

  • 发布项目
    1
  • 订单总数
    0
  • 退款单数
    0

完善简历

工程师完善技术能力和项目经验,更易接到订单

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信客服

需求方请加需求方端客服沟通需求,工程师请加工程师端客服浏览推送职位

需求方端客服
工程师端客服
联系需求方端客服