商品分类信息:
通过requests请求商品分类页面,用xpath分析页面获取亚马逊上所有的商品分类的大类,小类及其url ,保存在一个json文件中备用
获取商品小类分页:
请求分类url,获取商品的列表页,用xpath分析此类商品的列表页共有多少页,分析分页url的请求参数,建立需要请求的url队列备用
获取商品详情url:
请求商品分页中的每一个url,得到不同的商品列表页,用xpath分析这个页面得到每一个商品的详情页面的url,放入队列中备用
获取商品信息:
请求每一个商品详情页url,获取商品的详情页面。使用xpath对页面进行分析,获取商品名称,价格,参数列表,页面上评论列表,评论包括用户名称,打分,评语,购买的商品名称,下单时间。
解决反爬,只加入user-agent,有的页面会弹出验证码,并提示开启浏览器cookie功能。使用自己的账号密码登陆后,在请求头加入cookie进行模拟请求。仍然有验证,使用selenium+phantomjs(仍然有验证,自动使用Chrome)获取页面信息。最终将爬取到的信息放在MongoDB中,如遇页面信息提取错误,会生成一个error.log日志文件详细说明哪一个url请求出现了错误,方便进行再次请求获取数据,甚至可直接读取,使用正则匹配到链接直接进行访问。