一、需求
处理亚马逊多站点关键词爬取风控503反爬
二、具体说明
现项目需求爬取亚马逊各个站点的关键词信息,在大批量爬取的过程中,遇到了503的风控反爬,情况表现如下:
1. 美国站点的爬虫稳定正常,没有503反爬情况
2. 除了美国站以外的站点,以英国和德国为例,在爬取前1-2小时内爬取正常,在第2小时左右开始,出现大量503的情况。
3. 日级别爬取量
UK(英国): 750000,
DE(德国): 900000,
FR(法国): 330000,
ES(西班牙): 240000,
IT(意大利): 345000,
CA(加拿大):405000,
JP(日本): 750000,
日爬取量总计:3720000
4. 小时级别爬取量
UK(英国): 100000,
DE(德国): 50000,
小时爬取量总计:150000
5. 总日均爬取量
3720000 + 300000 * 24 = 10920000
三、爬取内容
1. 爬取内容主要是访问搜索页的内容,在亚马逊首页搜索框中输入关键词,访问后的页面html。具体解析内容这边已完成,可提供解析函数
2. 可通过拼链接的方式访问获取html,https://{domain}/s?k={keyword},比如:https://www.amazon.co.uk/s?field-keywords=mixer
四、交付内容
1. 解决风控503的爬虫代码
2. 爬取过程需稳定,没有503风控。
一、需求
处理亚马逊多站点关键词爬取风控503反爬
二、具体说明
现项目需求爬取亚马逊各个站点的关键词信息,在大批量爬取的过程中,遇到了503的风控反爬,情况表现如下:
1. 美国站点的爬虫稳定正常,没有503反爬情况
2. 除了美国站以外的站点,以英国和德国为例,在爬取前1-2小时内爬取正常,在第2小时左右开始,出现大量503的情况。
3. 日级别爬取量
UK(英国): 750000,
DE(德国): 900000,
FR(法国): 330000,
ES(西班牙): 240000,
IT(意大利): 345000,
CA(加拿大):405000,
JP(日本): 750000,
日爬取量总计:3720000
4. 小时级别爬取量
UK(英国): 100000,
DE(德国): 50000,
FR(法国): 50000,
ES(西班牙): 50000,
IT(意大利): 50000,
CA(加拿大):50000,
JP(日本): 50000,
小时爬取量总计:300000
5. 总日均爬取量
3720000 + 150000 * 24 = 7320000
三、爬取内容
1. 爬取内容主要是访问搜索页的内容,在亚马逊首页搜索框中输入关键词,访问后的页面html。具体解析内容这边已完成,可提供解析函数
2. 可通过拼链接的方式访问获取html,https://{domain}/s?k={keyword},比如:https://www.amazon.co.uk/s?field-keywords=mixer
四、交付内容
1. 解决风控503的爬虫代码
2. 爬取过程需稳定,没有503风控。
正常爬取情况
风控503爬取情况
五、验收方式
1. 甲方推送消费队列,乙方爬取消费入库,满足总日均爬取量即可。
2. 可以提供代理进行爬取
五、验收方式
1. 甲方推送消费队列,乙方爬取消费入库,满足总日均爬取量即可。
2. 可以提供代理进行爬取