很多网页的核心数据是动态加载. 要去分析ajax/js. 找到里面的数据源
有的网页不需要登录/cookie认证. 因此找到数据源直接获取就完事
但是类似于淘宝这样的网站,它的数据生成会基于用户信息/cookie信息而改变
因此就需要携带用户cookie信息发送请求
淘宝案例过了一天后,再运行就会显示 令牌过期 --> 参数,请求信息是有有效期
页面在加载数据会携带参数,里面会有一些认证信息,这个信息是有有效期的
反爬的其中一种手段.时间不符合/有效期过了就不给数据
1.进入network/网络 --> 刷新页面 --> 搜索商品数据
2.用懒人神器,生成爬虫代码
3.现在需要找到sign数据. 在network里搜索sign
4.在[https://g.alicdn.com/main-search/pc-main-search/1.0.37/js/index.js]文件里找到想要的sign数据. 通过关键词 main主要 search搜索. 要爬取的数据就是我们搜索的商品数据.
5.分析sign相关函数. sign的值为l . l = c(r.token + "&" + u + "&" + s + "&" + n.data)
6.给l = c(r.token + "&" + u + "&" + s + "&" + n.data)打上断点,输出里面参数的信息
7.分析出参数代表什么后,复制c函数里的代码,放到一个js文件里, 放入参数运行生成自己的sign值
8.用自己的sign/t向服务器发送请求
案例其实就是做两件事,
1.找到sign怎么生成的,然后自己生成
n.data : 商品数据 / 载荷里获取
2.对获取到的json数据进行过滤.
只要里面的 店铺 / 商品名 / 价格 / 网址
js文件断点 --> 选择js文件 -- 右键 -- 来源页打开 -- 断点