爬取亚马逊网站

猿急送>济南兼职程序员>Sundial Dreams>

案例列表

基本信息

案例ID：145714

技术顾问：Sundial Dreams - 1年经验 - 山东玖安信息科技有限公司

联系沟通

微信扫码，建群沟通

项目名称：爬取亚马逊网站

所属行业：企业服务 - 数据服务

->查看更多案例

案例介绍

商品分类信息：
通过requests请求商品分类页面，用xpath分析页面获取亚马逊上所有的商品分类的大类，小类及其url ，保存在一个json文件中备用
获取商品小类分页：
请求分类url，获取商品的列表页，用xpath分析此类商品的列表页共有多少页，分析分页url的请求参数，建立需要请求的url队列备用
获取商品详情url：
请求商品分页中的每一个url，得到不同的商品列表页，用xpath分析这个页面得到每一个商品的详情页面的url，放入队列中备用
获取商品信息：
请求每一个商品详情页url，获取商品的详情页面。使用xpath对页面进行分析，获取商品名称，价格，参数列表，页面上评论列表，评论包括用户名称，打分，评语，购买的商品名称，下单时间。
解决反爬，只加入user-agent，有的页面会弹出验证码，并提示开启浏览器cookie功能。使用自己的账号密码登陆后，在请求头加入cookie进行模拟请求。仍然有验证，使用selenium+phantomjs(仍然有验证，自动使用Chrome)获取页面信息。最终将爬取到的信息放在MongoDB中，如遇页面信息提取错误，会生成一个error.log日志文件详细说明哪一个url请求出现了错误，方便进行再次请求获取数据，甚至可直接读取，使用正则匹配到链接直接进行访问。